1 引言
ChatGPT 是由 OpenAI 研發(fā)的一種語言 AI 模型,使用上億參數(shù)的大模型和海量語 料庫來生成語句,目前可以實現(xiàn)寫詩、撰文、編碼的功能。ChatGPT 廣受用戶歡迎, 短短五天注冊用戶數(shù)量便超過 100 萬,60 日月活破億。產(chǎn)業(yè)界如微軟、谷歌、百度 也對于 openAI 及其競品加大投入。
2 ChatGPT 引發(fā)人工智能投資熱潮
2.1 ChatGPT 是什么?
ChatGPT 是由 OpenAI 研發(fā)的一種語言 AI 模型,使用海量語料庫來生成與人類相 似的反應(yīng)。ChatGPT 是基于 GPT(generativef pretrained’ transformer)架構(gòu)搭建的, 主要用深度學(xué)習(xí)來生成連貫且具有意義的文字。這個模型使用了來自于網(wǎng)站
、書本和社 交媒體的海量文字?jǐn)?shù)據(jù),因此也為 ChatGPT 在保證準(zhǔn)確性和細(xì)節(jié)的同時
,提供了廣泛 的對話反饋
。對話反饋是 ChatGPT 的核心功能之一
,也使它成為了實現(xiàn)聊天機(jī)器人或 其他對話型 AI 的理想技術(shù)
。除對話功能外
,ChatGPT 也具有實現(xiàn)各類語言相關(guān)任務(wù)的能力,包括文章精煉
、翻 譯以及情緒分析等。以上各類語言能力在大規(guī)模的訓(xùn)練數(shù)據(jù)和升讀學(xué)習(xí)架構(gòu)下,使 ChatGPT 成為目前應(yīng)用最為先進(jìn)的語言模型之一
。總體上,ChatGPT 標(biāo)志著自然語言處理(NLP)和對話 AI 領(lǐng)域的一大步
,其高質(zhì) 量文字產(chǎn)出能力在商業(yè)、研究和開發(fā)活動中提高用戶體驗的方向上非常有應(yīng)用價值的
。
圖片
截至目前,GPT 已經(jīng)經(jīng)歷了如下演化:1. GPT-1: 第一代 GPT 語言模型,發(fā)布于 2018 年
。它有 1.17 億個參數(shù)
,使用網(wǎng)頁 的文字?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練
。2. GPT-2: 發(fā)布于 2019 年
,具有 15 億個參數(shù)
,使用的網(wǎng)頁文字?jǐn)?shù)據(jù)量也遠(yuǎn)大于前 一代
。它已經(jīng)可以生成高質(zhì)量的文字,甚至完成翻譯
、精煉文字等簡單任務(wù)。3. GPT-3: 發(fā)布于 2020 年
,具有 1750 億個參數(shù)
,使用網(wǎng)頁以及其他來源的文字進(jìn) 行訓(xùn)練
。它已經(jīng)可以進(jìn)行擔(dān)任各類任務(wù)
,被認(rèn)為是語言模型領(lǐng)域的顯著突破。
2.2 ChatGPT 技術(shù)和傳統(tǒng)的 AI 有什么區(qū)別?
相比傳統(tǒng) AI 算法,GPT 模型的區(qū)別在于通過海量參數(shù)
,進(jìn)一步提升了模型的精確 度
。初代的 GPT 模型參數(shù)是 1.17 億
,而 GPT2 的模型有 15 億個參數(shù),參數(shù)增加了 10 倍之多
。第三代的 GPT3 模型,參數(shù)達(dá)到了 1750 億
,是 GPT2 參數(shù)的 100 倍
。正是由 于參數(shù)的指數(shù)級提升
,使得模型的使用效果大幅提升。而此類參數(shù)上億的模型,通常稱 之為“大模型”
。GPT 模型基于 Transformer 架構(gòu)
,這是一種由谷歌的 Vaswani 等人于 2017 年引入 的神經(jīng)網(wǎng)絡(luò)類型
。Transformer 架構(gòu)特別擅長對序列數(shù)據(jù)中的長距離依賴進(jìn)行建模,這使 其非常適合自然語言處理任務(wù)
。為了訓(xùn)練 GPT 模型
,OpenAI 使用了來自互聯(lián)網(wǎng)的大量文本數(shù)據(jù)
,包括書籍
、文章 和網(wǎng)站。該模型使用一種稱為無監(jiān)督學(xué)習(xí)的技術(shù)進(jìn)行訓(xùn)練
,這意味著它學(xué)會了在沒有人 類監(jiān)督的情況下預(yù)測文本序列中的下一個單詞
。GPT 模型能夠生成連貫和語法正確的文本
,已被用于廣泛的自然語言處理任務(wù),包 括語言翻譯
、文本補(bǔ)全和文本生成。
Transformer 模型是一種用于自然語言處理的神經(jīng)網(wǎng)絡(luò)模型 。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng) 絡(luò)(RNN)不同,Transformer 模型使用自注意力機(jī)制(self-attention)來處理輸入序列 中不同位置之間的依賴關(guān)系
。Transformer 模型由編碼器和解碼器兩部分組成
。編碼器將輸入序列中的每個單詞 表示為一個向量
,并通過多層自注意力和前饋神經(jīng)網(wǎng)絡(luò)來對輸入序列進(jìn)行編碼
。解碼器 則使用相同的自注意力和前饋神經(jīng)網(wǎng)絡(luò)來生成輸出序列
。在自注意力機(jī)制中
,模型根據(jù)輸入序列中的所有單詞計算出每個單詞與其他單詞的 相關(guān)性,然后使用這些相關(guān)性加權(quán)求和得到每個單詞的表示向量
。這種方法使得模型能 夠處理長序列和跨越序列中的依賴關(guān)系,從而提高了模型的性能。Transformer 模型已經(jīng)在自然語言處理領(lǐng)域取得了很好的效果
,包括機(jī)器翻譯
、文 本摘要和問答系統(tǒng)等任務(wù)
。它是目前最先進(jìn)的語言模型之一
,也是開發(fā)其他自然語言處 理模型的基礎(chǔ)
。
2.3 ChatGPT 將給行業(yè)帶來哪些機(jī)會?
相比其他此前的人工智能技術(shù)與進(jìn)展,ChatGPT 之所以引發(fā)關(guān)注,主要總結(jié)為以下 幾點:1) 從使用效果上,交流通暢,同時能夠?qū)崿F(xiàn)寫詩、撰文、編碼的功能。2 月 1 日, 以色列總統(tǒng)艾薩克·赫爾佐格(Isaac Herzog)發(fā)表了部分由人工智能(AI)撰寫的 演講 ;2) 受用戶歡迎。短短 5 天
,注冊用戶數(shù)就超過 100 萬。60 天月活破億
。3) 商業(yè)模式產(chǎn)生變化。2023 年 2 月 2 日,美國人工智能(AI)公司 OpenAI 發(fā)布 ChatGPT 試點訂閱計劃
。4) 產(chǎn)業(yè)界也表現(xiàn)出對 Chatgpt 的關(guān)注。表現(xiàn)為:1)1 月 23 日
,微軟宣布向 ChatGPT 開發(fā)者 OpenAI 追加投資數(shù)十億美元;2)谷歌 3 億美元投資 Chatgpt 競品
。3)百度將于 3 月發(fā)布類似 Chatgpt 的 AI 服務(wù)。由此帶來相關(guān)產(chǎn)業(yè)鏈的大變革:
1) 語音識別與自然語言處理行業(yè)快速發(fā)展:人工智能,也即解決像人一樣看、聽、思考的問題。因此,按照此維度來劃分,劃 分為計算機(jī)視覺、語音識別與自然語言處理及數(shù)據(jù)科學(xué)。早先,2020 年數(shù)據(jù)顯示,計算機(jī)視覺占比約 56.6%;語音識別與自然語言處理占比 約 35.6%。也即,在機(jī)器視覺領(lǐng)域的應(yīng)用,相比自然語言處理,更為成熟,市場規(guī)模更 大。但隨著 ChatGPT 帶來的投資熱潮,與應(yīng)用領(lǐng)域的不斷豐富
,音頻與自然語言處理 的整體行業(yè)規(guī)模
,有望迅速增長
。
圖片
2) 激活產(chǎn)業(yè)鏈:整個人工智能的產(chǎn)業(yè)鏈包括算力、數(shù)據(jù)、算法乃至下游應(yīng)用。算力與網(wǎng)絡(luò):英偉達(dá)的研究表示,GPT-3 模型需要使用 512 顆 V100 顯卡訓(xùn)練 7 個 月時間,或者使用 1024 顆 A100 芯片訓(xùn)練長達(dá)一個月的時間。隨著各大科技廠商投入對 大模型的研發(fā),勢必增加芯片、服務(wù)器等算力需求。同時,龐大的 AI 算力集群,又需要 高帶寬支撐數(shù)據(jù)傳輸。數(shù)據(jù):數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)檢是較為重要的三個環(huán)節(jié)。從自然數(shù)據(jù)源簡單 收集取得的原料數(shù)據(jù)并不能直接用于有效監(jiān)督的深度學(xué)習(xí)算法訓(xùn)練,經(jīng)過專業(yè)化采集、 加工形成的訓(xùn)練數(shù)據(jù)集才能供深度學(xué)習(xí)算法等訓(xùn)練使用
,由此帶來數(shù)據(jù)服務(wù)需求。算法:相比傳統(tǒng) AI 模型
,大模型的優(yōu)勢體現(xiàn)在:1)解決 AI 過于碎片化和多樣化 的問題;2) 具備自監(jiān)督學(xué)習(xí)功能
,降低訓(xùn)練研發(fā)成本
;3)擺脫結(jié)構(gòu)變革桎梏,打開 模型精度上限
。對于大模型算法的研發(fā)、優(yōu)化
,亦是投入的重點。下游應(yīng)用:產(chǎn)業(yè)界一直以來都在尋求人工智能的應(yīng)用領(lǐng)域
、商業(yè)模式突破
。隨著大 模型使用
、人工智能算法精度提升
,下游應(yīng)用的擴(kuò)展可期。
3 數(shù)據(jù)要素資源基礎(chǔ),滿足大模型訓(xùn)練需求
3.1 政策引導(dǎo)數(shù)據(jù)要素確權(quán)使用,掃清人工智能發(fā)展障礙
數(shù)據(jù)已成為五大核心生產(chǎn)要素之一。2020 年 4 月中共中央國務(wù)院《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意 見》中發(fā)布。這是數(shù)據(jù)作為新型生產(chǎn)要素首次在中央頂層文件中提出
。而后,2022 年 4 月國務(wù)院《關(guān)于加快建設(shè)全國統(tǒng)一大市場的意見》中
,進(jìn)一步提到 加快培育數(shù)據(jù)要素市場
,建立數(shù)據(jù)資源產(chǎn)權(quán)相關(guān)基礎(chǔ)制度
。2022 年 12 月 9 日,財政部發(fā)布關(guān)于征求《企業(yè)數(shù)據(jù)資源相關(guān)會計處理暫行規(guī)定 (征求意見稿)》意見的函
,具體提出了企業(yè)數(shù)據(jù)資源相關(guān)會計
、處理的方式方法
,進(jìn)一 步掃清了數(shù)據(jù)要素市場建立、數(shù)據(jù)資源交易的障礙
。當(dāng)前,2022 年 12 月發(fā)布《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》
, 是數(shù)據(jù)要素體系建設(shè)中,頂層關(guān)鍵文件
,掃除了未來人工智能發(fā)展中需要使用數(shù)據(jù)的障 礙:1)建立保障權(quán)益
,合規(guī)使用的數(shù)據(jù)產(chǎn)權(quán)制度
;2)建立合規(guī)高效的場內(nèi)外結(jié)合的數(shù) 據(jù)要素流通和交易制度。3)建立體現(xiàn)效率促進(jìn)公平的數(shù)據(jù)要素收益分配制度
。4)建立 安全可控彈性包容的數(shù)據(jù)要素治理制度。
數(shù)字經(jīng)濟(jì)快速發(fā)展 ,數(shù)據(jù)要素成為重要戰(zhàn)略資源?div id="m50uktp" class="box-center"> !丁笆奈濉睌?shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》 中指出,數(shù)字經(jīng)濟(jì)是繼農(nóng)業(yè)經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)之后的主要經(jīng)濟(jì)形態(tài)
?div id="4qifd00" class="flower right">
!兑?guī)劃》設(shè)定了到 2025 年實現(xiàn)數(shù)字經(jīng)濟(jì)核心產(chǎn)業(yè)增加值占 GDP 比重達(dá)到 10%的目標(biāo),涵蓋數(shù)據(jù)要素市場、產(chǎn) 業(yè)數(shù)字化
、數(shù)字產(chǎn)業(yè)化
、數(shù)字化公共服務(wù)、數(shù)字經(jīng)濟(jì)治理體系五個方面
。從 2015 年至 今,數(shù)字經(jīng)濟(jì)平均增速持續(xù)高于 GDP 增速
,2021 年數(shù)字經(jīng)濟(jì)占 GDP 比重已經(jīng)由 2015 年的 27%提升至 40%。
圖片
3.2 大數(shù)據(jù)管理能力需求提升
聯(lián)網(wǎng)設(shè)備高增之下,流量增長不可避免。根據(jù)思科的《年度互聯(lián)網(wǎng)報告》
,到 2023 年,地球上的連網(wǎng)設(shè)備數(shù)量將是全球人口的大約三倍
,從 2017 年的人均 2.4 臺提升至 3.6 臺
。由于 IP 地址即網(wǎng)絡(luò)地址+主機(jī)地址
,網(wǎng)絡(luò)站點所連接的 IP 數(shù)量也處于爆發(fā)的階 段
。根據(jù) IDC 的《中國物聯(lián)網(wǎng)連接規(guī)模預(yù)測
,2020-2025》
,僅我國物聯(lián)網(wǎng) IP 連接量已 在 2020 年達(dá) 45.3 億
,有望在 2025 年達(dá)到 102.7 億
,CAGR 為 17.8%
。由于 IP 地址 聯(lián)網(wǎng)后即產(chǎn)生數(shù)據(jù)流量
, IP 地址的數(shù)量增長即代表全網(wǎng)數(shù)據(jù)也將繼續(xù)大增
,對于現(xiàn)有 的網(wǎng)絡(luò)企業(yè)的承載能力提出了考驗。根據(jù)思科的《年度互聯(lián)網(wǎng)報告》
,2022 年全球網(wǎng)絡(luò) 數(shù)據(jù)流量將達(dá) 799EB(1EB=十億 GB),同比增長 21%
。我們認(rèn)為
,數(shù)據(jù)流量的增長
, 有望直接帶動大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展
,而其中穩(wěn)定優(yōu)質(zhì)響應(yīng)快的數(shù)據(jù)庫性價比更高。
全球大數(shù)據(jù)市場存量巨大 ,軟件市場占比較高且增速快
。根據(jù) Wikibon 及沙利文研 究數(shù)據(jù)
,全球大數(shù)據(jù)市場規(guī)模有望在 2022 年達(dá) 718 億美元
,同比增速 11%
;而其中全 球大數(shù)據(jù)軟件偉 286 億美元,同比增速 18%
,約占大數(shù)據(jù)市場規(guī)模的 40%?div id="4qifd00" class="flower right">
?梢哉J(rèn)為, 軟件市場在大數(shù)據(jù)市場中
,占據(jù)較大地位,而由于其增速高于大數(shù)據(jù)市場的整體增速
, 其占比還將進(jìn)一步提升
。
圖片
3.3 數(shù)據(jù)標(biāo)注,是 AI 模型的基礎(chǔ)
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)助力 AI 訓(xùn)練與調(diào)優(yōu),數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)檢是較 為重要的三個環(huán)節(jié)。從自然數(shù)據(jù)源簡單收集取得的原料數(shù)據(jù)并不能直接用于有效監(jiān)督的 深度學(xué)習(xí)算法訓(xùn)練,經(jīng)過專業(yè)化采集、加工形成的訓(xùn)練數(shù)據(jù)集才能供深度學(xué)習(xí)算法等訓(xùn) 練使用 ,從某種程度上講
,數(shù)據(jù)決定了 AI 的落地程度,因此
,基礎(chǔ)數(shù)據(jù)服務(wù)應(yīng)運而生
。具體來看
,基礎(chǔ)數(shù)據(jù)的服務(wù)流程圍繞著客戶的展開
,為 AI 模型訓(xùn)練提供可靠、可用的數(shù) 據(jù)
,其包含五個環(huán)節(jié),分別是 1)數(shù)據(jù)庫設(shè)計:訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)設(shè)計
;2)數(shù)據(jù)采集:獲 取原料數(shù)據(jù)
;3)數(shù)據(jù)清洗:清洗殘缺
、重復(fù)或者錯誤的數(shù)據(jù);4)數(shù)據(jù)標(biāo)注:幫助機(jī)器 認(rèn)識數(shù)據(jù)的特征
;5)質(zhì)檢:各環(huán)節(jié)質(zhì)量檢測和控制。
市場標(biāo)注行業(yè)市場規(guī)模不斷擴(kuò)大,圖像類和語音類需求占比超八成。從市場規(guī)模來 看,根據(jù)觀研天下統(tǒng)計,2021 年我國數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模為 43 億元,2017 至 2029 年的 CAGR 為 23%;根據(jù) IDC《2021 年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場研究報告》, 預(yù)計中國 AI 基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模將在 2025 年突破 120 億元,近五年的 CAGR 達(dá) 47%。從市場收入結(jié)構(gòu)來看,按數(shù)據(jù)類型劃分,基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)是市場需求可以分為 圖像類
、語音類和自然語言處理類數(shù)據(jù)需求。根據(jù)觀研天下統(tǒng)計,2021 年我國數(shù)據(jù)標(biāo)注 行業(yè)下游以圖像類和語音類需求為主
,二者合計占比達(dá) 86%
,其中
,圖像類業(yè)務(wù)以智能 駕駛與安防為主
,語音類以中英大大語種
、中國本土方言以及外國小語種為主。
3.4 相關(guān)標(biāo)的
1) 星環(huán)科技:平臺、數(shù)據(jù)庫集一身的數(shù)據(jù)要素稀缺標(biāo)的
專注于分布式數(shù)據(jù)庫,技術(shù)水平全球領(lǐng)先。星環(huán)科技 2013 年成立于上海,是國內(nèi) 大數(shù)據(jù)管理軟件領(lǐng)導(dǎo)者,已累計有超過 1,000 家終端用戶,且產(chǎn)品已落地以下知名機(jī)構(gòu) 或其主要分支機(jī)構(gòu),金融行業(yè)包括中國銀行、浦發(fā)銀行、浙江農(nóng)村商業(yè)聯(lián)合銀行等,政 府領(lǐng)域包括上海市大數(shù)據(jù)中心等,能源行業(yè)包括中國石油、南方電網(wǎng)等,交通行業(yè)包括 中國郵政集團(tuán)
、鄭州地鐵等
,制造業(yè)包括湖南中煙等。公司在發(fā)展中經(jīng)歷了多個重要節(jié) 點:1)公司 2013 年成立
,隨即發(fā)布了大數(shù)據(jù)基礎(chǔ)平臺 TDH2.0 版本,并于次年推出 Inceptor 關(guān)系型分析引擎
、Slipstream 實時計算引擎,實現(xiàn)數(shù)據(jù)湖
、實時計算兩大熱點 功能;2)2014 年公司被 Gartner 列入 Hadoop 的主流發(fā)行版列表;3)2017 年起
,公 司陸續(xù)發(fā)布新品
,包括分析工具 Sophon
、云產(chǎn)品 TDC
、分布式分析數(shù)據(jù)庫 ArgoDB 和 分布式交易數(shù)據(jù)庫 KunDB
。2022 年
,公司已被 Gartner 評為圖數(shù)據(jù)庫管理的全球代表 廠商
。
圖片
股權(quán)結(jié)構(gòu)穩(wěn)定,創(chuàng)始人保持控制權(quán)。發(fā)行人的控股股東、實際控制人為創(chuàng)始人孫元 浩
,主要理由如下:(1)截至本招股說明書簽署日
,孫元浩直接持有星環(huán)科技 12.3%的 股份,為公司第一大股東
,且在報告期內(nèi)持續(xù)為發(fā)行人第一大股東。(2)孫元浩與范磊
、 呂程、佘暉及贊星投資中心簽署了《一致行動協(xié)議》
,確認(rèn) 自 2019 年 1 月 1 日起
, 范磊
、呂程
、佘暉及贊星投資中心與孫元浩在發(fā)行人有關(guān)重大事項中保持一致行動,并 約定上述各方在無法達(dá)成一致意見時
,為提高公司決策效率
,在不損害孫元浩合法權(quán)益 及保障公司整體利益的前提下
,應(yīng)以孫元浩的意見作為各方的最終共同意見
。孫元浩擔(dān) 任執(zhí)行事務(wù)合伙人的贊星投資中心持有公司 8.3%的股份
,孫元浩之一致行動人范磊、呂 程
、佘暉分別持有公司 6.7%、1.7%
、1.0%的股份
。因此,孫元浩本人及通過《一致行 動協(xié)議》合計控制公司 30.0%的股份
。(3)報告期內(nèi),孫元浩一直擔(dān)任發(fā)行人(及其前 身星環(huán)有限)的董事長及總經(jīng)理
,在發(fā)行人的董事會和日常管理決策中均能夠產(chǎn)生重大 影響。( 4)根據(jù)除孫元浩
、范磊、呂程
、佘暉及贊星投資中心以外的發(fā)行人其他股東的 書面確認(rèn)
,各方均認(rèn)可孫元浩于報告期內(nèi)作為發(fā)行人的實際控制人
。
2) 海天瑞聲:人工智能基礎(chǔ)數(shù)據(jù)服務(wù)提供商 ,產(chǎn)品矩陣不斷豐富
自 2005 年成立以來,海天瑞聲始終致力于為 AI 產(chǎn)業(yè)鏈上的各類機(jī)構(gòu)提供算法模型 開發(fā)訓(xùn)練所需的專業(yè)數(shù)據(jù)集
,目前已發(fā)展為人工智能領(lǐng)域具備國際競爭力的國內(nèi)領(lǐng)軍企 業(yè)。公司研發(fā)生產(chǎn)的訓(xùn)練數(shù)據(jù)覆蓋了智能語音
、計算機(jī)視覺及自然語言處理三大 AI 核心 領(lǐng)域
,實現(xiàn)了標(biāo)準(zhǔn)化產(chǎn)品
、定制化服務(wù)、相關(guān)應(yīng)用服務(wù)的全覆蓋
,廣泛應(yīng)用于人機(jī)交互、 智能家居
、智能駕駛、智慧金融
、智能安防、OCR 識別等多個應(yīng)用場景
。截至 2022 年 半年報
,公司累計客戶量達(dá) 695 家
。
公司產(chǎn)品應(yīng)用領(lǐng)域不斷拓寬,下游客戶豐富。從應(yīng)用場景來看 ,公司產(chǎn)品的應(yīng)用場 景覆蓋了個人助手
、語音輸入、智能家居
、智能客服、機(jī)器人
、語音導(dǎo)航
、智能播報
、 語音翻譯、移動社交
、虛擬人、智能駕駛
、智慧金融、智慧交通
、智慧城市
、機(jī)器翻譯、 智能問答
、信息提取
、情感分析
、OCR 識別等多種應(yīng)用場景。從下游客戶來看
,公司的客戶為 AI 產(chǎn)業(yè)鏈上的各類機(jī)構(gòu),主要系:1)大型科技公司
,阿里巴巴
、騰訊
、百度、 微軟等
;2)人工智能企業(yè)
,科大訊飛
、商湯科技、?div id="4qifd00" class="flower right">
?低暤龋?)科研機(jī)構(gòu)
,如中國 科學(xué)院、清華大學(xué)等
。目前,公司的產(chǎn)品和服務(wù)已經(jīng)獲得了阿里巴巴
、騰訊百度
、科大 訊飛
、微軟
、清華大學(xué)等國內(nèi)外客戶的認(rèn)可
。
圖片
4 ChatGPT 帶來的變革——大模型算法
4.1 大模型時代的引言:Double Descent(雙下降)現(xiàn)象
隨著深度神經(jīng)網(wǎng)絡(luò)的興起,人工智能進(jìn)入統(tǒng)計分類深度模型時代,這種模型比以往 的模型更加泛化,可以通過提取不同特征值應(yīng)用于不同場景。但在 2018 年-2019 年, 雙下降現(xiàn)象的發(fā)現(xiàn)打破了原有的人工智能發(fā)展格局。簡而言之,以往的數(shù)學(xué)理論表明, 隨著參數(shù)增多、模型增大,過擬合導(dǎo)致模型的誤差會先下降后上升,這使得找到精度最 高誤差最小的點成為模型調(diào)整的目標(biāo)。而隨著人工智能算法算力的不斷發(fā)展,研究者發(fā) 現(xiàn)如果繼續(xù)不設(shè)上限的增大模型,模型誤差會在升高后第二次降低,并且誤差下降會隨 著模型的不斷增大而降低,通俗而言模型越大,準(zhǔn)確率越高。因此人工智能發(fā)展進(jìn)入了 大模型時代
。
相比傳統(tǒng) AI 模型,大模型的優(yōu)勢體現(xiàn)在:1)解決 AI 過于碎片化和多樣化的問題
,極大提高模型的泛用性。應(yīng)對不同場景 時
,AI 模型往往需要進(jìn)行針對化的開發(fā)
、調(diào)參、優(yōu)化
、迭代
,需要耗費大量的人力成 本
,導(dǎo)致了 AI 手工作坊化。大模型采用“預(yù)訓(xùn)練+下游任務(wù)微調(diào)”的方式
,首先從大量標(biāo) 記或者未標(biāo)記的數(shù)據(jù)中捕獲信息,將信息存儲到大量的參數(shù)中
,再進(jìn)行微調(diào)
,極大提高 模型的泛用性
。2)具備自監(jiān)督學(xué)習(xí)功能,降低訓(xùn)練研發(fā)成本
。我們可以將自監(jiān)督學(xué)習(xí)功能表觀理 解為降低對數(shù)據(jù)標(biāo)注的依賴,大量無標(biāo)記數(shù)據(jù)能夠被直接應(yīng)用
。這樣一來,一方面降低 人工成本
,另一方面,使得小樣本訓(xùn)練成為可能
。3)擺脫結(jié)構(gòu)變革桎梏
,打開模型精度上限
。過去想要提升模型精度
,主要依賴網(wǎng) 絡(luò)在結(jié)構(gòu)上的變革
。隨著神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計技術(shù)逐漸成熟并開始趨同,想要通過優(yōu)化神 經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從而打破精度局限變得困難
。而研究證明,更大的數(shù)據(jù)規(guī)模確實提高了模型 的精度上限
。
4.2 首要關(guān)鍵技術(shù):Transformer 模型 GPT 模型利用
Transformer 模型作為特征提取器,是第一個引入 Transformer 的預(yù) 訓(xùn)練模型
。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型例如 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))在實際訓(xùn)練過程中由于輸入 向量大小不一
、且向量間存在相互影響關(guān)系導(dǎo)致模型訓(xùn)練結(jié)果效果較差
。Transformer 模 型有三大技術(shù)突破解決了這個問題
。首先 Transformer 模型的 Self-Attention(自注意力)機(jī)制使人工智能算法注意到輸 入向量中不同部分之間的相關(guān)性,從而大大提升了精準(zhǔn)性
。其次該模型采用屬于無監(jiān)督 學(xué)習(xí)的自監(jiān)督學(xué)習(xí),無需標(biāo)注數(shù)據(jù)
,模型直接從無標(biāo)簽數(shù)據(jù)中自行學(xué)習(xí)一個特征提取器
, 大大提高了效率
。最后
,在做具體任務(wù)時
,微調(diào)旨在利用其標(biāo)注樣本對預(yù)訓(xùn)練網(wǎng)絡(luò)的參 數(shù)進(jìn)行調(diào)整
。也可以針對具體任務(wù)設(shè)計一個新網(wǎng)絡(luò)
,把預(yù)訓(xùn)練的結(jié)果作為其輸入
,大大 增加了其通用泛化能力
。Transformer 模型的這些優(yōu)點快速替代了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)。
圖片
4.3 GPT 快速迭代,從 GPT1.0 迅速步入 3.5 時代
GPT:大型無監(jiān)督語言模型,能夠生產(chǎn)連貫的文本段落。GPT-1 采用無監(jiān)督預(yù)訓(xùn)練 和有監(jiān)督微調(diào),證明了 transformer 對學(xué)習(xí)詞向量的強(qiáng)大能力