人工智能行業(yè)專題報告:AI大模型需要什么樣的數(shù)據(jù).pdf
- 上傳者:老*
- 時間:2023/05/11
- 熱度:1799
- 1人點(diǎn)贊
- 舉報
人工智能行業(yè)專題報告:AI大模型需要什么樣的數(shù)據(jù)。AI 的突破得益于高質(zhì)量數(shù)據(jù),我們認(rèn)為數(shù)據(jù)是大模型競爭關(guān)鍵要素之一:1) 訓(xùn)練大模型需要高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集;2)優(yōu)質(zhì)中文數(shù)據(jù)集稀 缺,數(shù)字中國戰(zhàn)略將促進(jìn)數(shù)據(jù)要素市場完善,助力數(shù)據(jù)集發(fā)展。近期歐洲議 會議員《人工智能法案》提案、網(wǎng)信辦《生成式人工智能服務(wù)管理辦法(征 求意見稿)》對大模型訓(xùn)練數(shù)據(jù)的版權(quán)披露、合法性提出要求,對于數(shù)據(jù)產(chǎn) 業(yè)鏈的投資機(jī)會,我們認(rèn)為:1)數(shù)據(jù)資產(chǎn)儲備公司的商業(yè)化進(jìn)程值得關(guān)注; 2)行業(yè)數(shù)據(jù)價值高,具有優(yōu)質(zhì)數(shù)據(jù)和一定大模型能力的公司或通過行業(yè)大 模型賦能業(yè)務(wù);3)關(guān)注卡位優(yōu)質(zhì)客戶、技術(shù)降低人力成本的數(shù)據(jù)服務(wù)企業(yè)。
海外開源數(shù)據(jù)集積累豐富,合成數(shù)據(jù)或?qū)⒕徑飧哔|(zhì)量數(shù)據(jù)耗盡隱憂
我們梳理了海外主要的開源語言和多模態(tài)數(shù)據(jù)集,主要的發(fā)布方包括高校、 互聯(lián)網(wǎng)巨頭研究部門、非盈利研究組織以及政府機(jī)構(gòu)。我們認(rèn)為海外積累豐 富的開源高質(zhì)量數(shù)據(jù)集得益于:1)相對較好的開源互聯(lián)網(wǎng)生態(tài);2)免費(fèi)線 上書籍、期刊的長期資源積累;3)學(xué)術(shù)界、互聯(lián)網(wǎng)巨頭研究部門、非盈利 研究組織及其背后的贊助基金形成了開放數(shù)據(jù)集、發(fā)表論文-被引用的開源 氛圍。然而,高質(zhì)量語言數(shù)據(jù)或于 2026 年耗盡,AI 合成數(shù)據(jù)有望緩解數(shù)據(jù) 耗盡的隱憂,Gartner 預(yù)測 2030 年大模型使用的絕大部分?jǐn)?shù)據(jù)或由 AI 合成。
中文開源數(shù)據(jù)集數(shù)量少、規(guī)模小,看好數(shù)字中國戰(zhàn)略激活數(shù)據(jù)要素產(chǎn)業(yè)鏈
與國外類似,國內(nèi)大模型的訓(xùn)練數(shù)據(jù)包括互聯(lián)網(wǎng)爬取數(shù)據(jù)、書籍期刊、公司 自有數(shù)據(jù)以及開源數(shù)據(jù)集等。就開源數(shù)據(jù)集而言,國內(nèi)外的發(fā)布方都涵蓋高 校、互聯(lián)網(wǎng)巨頭、非盈利機(jī)構(gòu)等組織。但國內(nèi)開源數(shù)據(jù)集數(shù)量少、規(guī)模小, 因此國內(nèi)大模型訓(xùn)練往往使用多個海外開源數(shù)據(jù)集。國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集 的原因在于:1)高質(zhì)量數(shù)據(jù)集需要高資金投入;2)相關(guān)公司開源意識較低; 3)學(xué)術(shù)領(lǐng)域中文數(shù)據(jù)集受重視程度低。看好數(shù)字中國戰(zhàn)略助力國內(nèi)數(shù)據(jù)集 發(fā)展:1)各地數(shù)據(jù)交易所設(shè)立運(yùn)營提升數(shù)據(jù)資源流通;2)數(shù)據(jù)服務(wù)商鏈接 數(shù)據(jù)要素產(chǎn)業(yè)鏈上下游,激活數(shù)據(jù)交易流通市場,提供更多樣化的數(shù)據(jù)產(chǎn)品。
數(shù)據(jù)產(chǎn)業(yè)鏈投資機(jī)會:關(guān)注數(shù)據(jù)生產(chǎn)與處理環(huán)節(jié)
數(shù)據(jù)產(chǎn)業(yè)鏈包括生產(chǎn)、處理等環(huán)節(jié)。我們認(rèn)為數(shù)據(jù)生產(chǎn)可以分為通用數(shù)據(jù)和 行業(yè)數(shù)據(jù):1)海外主要數(shù)據(jù)集的通用數(shù)據(jù)來自維基、書籍期刊、高質(zhì)量論 壇,國內(nèi)相關(guān)公司包括文本領(lǐng)域的百度百科、中文在線、中國科傳、知乎等, 以及視覺領(lǐng)域的視覺中國等。2)數(shù)據(jù)是垂直行業(yè)企業(yè)的護(hù)城河之一,相關(guān) 公司包括城市治理和 ToB 行業(yè)應(yīng)用領(lǐng)域的中國電信、中國移動、中國聯(lián)通, CV 領(lǐng)域的海康、大華等。數(shù)據(jù)處理環(huán)節(jié),模型研發(fā)企業(yè)的外包需求強(qiáng)烈, 利好卡位優(yōu)質(zhì)客戶、技術(shù)賦能降低人力成本的數(shù)據(jù)服務(wù)企業(yè),如 Appen、 Telus International、Scale AI。
免責(zé)聲明:本文 / 資料由用戶個人上傳,平臺僅提供信息存儲服務(wù),如有侵權(quán)請聯(lián)系刪除。
- 相關(guān)標(biāo)簽
- 相關(guān)專題
- 全部熱門
- 本年熱門
- 本季熱門
- 普華永道:2026人工智能就緒度評估:企業(yè)AI轉(zhuǎn)型的前置診斷與準(zhǔn)備指南.pdf 99 4積分
- 2026未來已來AI協(xié)同辦公趨勢洞察報告-易觀分析.pdf 65 5積分
- 計算機(jī)行業(yè)智能體應(yīng)用研究系列(三):Harness筑基,Agent奔赴自主執(zhí)行時代.pdf 56 4積分
- 計算機(jī)行業(yè)專題研究:從規(guī)模增長到價值兌現(xiàn),頭部模型廠進(jìn)入新盈利階段.pdf 47 3積分
- 傳媒行業(yè)深度報告:物理AI,數(shù)據(jù)筑基,模型搭臺,拔節(jié)起勢在即.pdf 45 3積分
- 普華永道-全球人工智能行業(yè)效能研究中國報告:乘智而上,向新而行.pdf 45 5積分
- 貝恩-2026年亞太醫(yī)療行業(yè)前線:消費(fèi)者期望越來越高,臨床醫(yī)生壓力巨大,而人工智能正在重塑可能實(shí)現(xiàn)的事物.pdf 35 3積分
- 電子&AI行業(yè)2026年中期策略:從LLM到Agent—電子產(chǎn)業(yè)鏈的再定價.pdf 34 3積分
- 清華大學(xué)-GEO(生成式引擎優(yōu)化)研究報告.pdf 33 9積分
- 量化漫談系列之二十一:GLM_5.2,Agent工具最優(yōu)模型,長程任務(wù)能力登頂.pdf 32 3積分
- 普華永道:2026人工智能就緒度評估:企業(yè)AI轉(zhuǎn)型的前置診斷與準(zhǔn)備指南.pdf 99 4積分
- 2026未來已來AI協(xié)同辦公趨勢洞察報告-易觀分析.pdf 65 5積分
- 計算機(jī)行業(yè)智能體應(yīng)用研究系列(三):Harness筑基,Agent奔赴自主執(zhí)行時代.pdf 56 4積分
- 計算機(jī)行業(yè)專題研究:從規(guī)模增長到價值兌現(xiàn),頭部模型廠進(jìn)入新盈利階段.pdf 47 3積分
- 傳媒行業(yè)深度報告:物理AI,數(shù)據(jù)筑基,模型搭臺,拔節(jié)起勢在即.pdf 45 3積分
- 普華永道-全球人工智能行業(yè)效能研究中國報告:乘智而上,向新而行.pdf 45 5積分
- 貝恩-2026年亞太醫(yī)療行業(yè)前線:消費(fèi)者期望越來越高,臨床醫(yī)生壓力巨大,而人工智能正在重塑可能實(shí)現(xiàn)的事物.pdf 35 3積分
- 電子&AI行業(yè)2026年中期策略:從LLM到Agent—電子產(chǎn)業(yè)鏈的再定價.pdf 34 3積分
- 清華大學(xué)-GEO(生成式引擎優(yōu)化)研究報告.pdf 33 9積分
- 量化漫談系列之二十一:GLM_5.2,Agent工具最優(yōu)模型,長程任務(wù)能力登頂.pdf 32 3積分
- 普華永道:2026人工智能就緒度評估:企業(yè)AI轉(zhuǎn)型的前置診斷與準(zhǔn)備指南.pdf 99 4積分
- 2026未來已來AI協(xié)同辦公趨勢洞察報告-易觀分析.pdf 65 5積分
- 計算機(jī)行業(yè)智能體應(yīng)用研究系列(三):Harness筑基,Agent奔赴自主執(zhí)行時代.pdf 56 4積分
- 計算機(jī)行業(yè)專題研究:從規(guī)模增長到價值兌現(xiàn),頭部模型廠進(jìn)入新盈利階段.pdf 47 3積分
- 傳媒行業(yè)深度報告:物理AI,數(shù)據(jù)筑基,模型搭臺,拔節(jié)起勢在即.pdf 45 3積分
- 普華永道-全球人工智能行業(yè)效能研究中國報告:乘智而上,向新而行.pdf 45 5積分
- 貝恩-2026年亞太醫(yī)療行業(yè)前線:消費(fèi)者期望越來越高,臨床醫(yī)生壓力巨大,而人工智能正在重塑可能實(shí)現(xiàn)的事物.pdf 35 3積分
- 電子&AI行業(yè)2026年中期策略:從LLM到Agent—電子產(chǎn)業(yè)鏈的再定價.pdf 34 3積分
- 清華大學(xué)-GEO(生成式引擎優(yōu)化)研究報告.pdf 33 9積分
- 量化漫談系列之二十一:GLM_5.2,Agent工具最優(yōu)模型,長程任務(wù)能力登頂.pdf 32 3積分
