AI大模型訓練與推理算力需求測算

提問時間：2025/11/17
瀏覽次數：238
提問者：匿名用戶
舉報
分享微信 QQ 微博

AI大模型訓練與推理算力需求測算

標簽

AI大模型

共有1個回答
關注問題
我來回答

最佳答案由匿名用戶編輯于2025/11/17 15:08

近年來，全球范圍內AI大模型的研發熱度持續攀升，從早期的Transformer和BERT 模型到如今的GPT-4、Gemini、LLaMA等，各主流廠商在模型規模、訓練數據體量與算力資源的投入上均呈現指數級增長。

以Open AI的GPT系列為例，GPT-3訓練參數量達1750億，使用約355個GPU-年，訓練成本達1200萬美元；GPT-4在硬件規模和訓練時長上雙雙大幅躍升，動用約2.5萬塊A100 GPU訓練近百天，整體投入超過1 億美元。國內如百度、阿里、商湯等頭部廠商亦加快布局，LLaMA-3.1、Deepseek-V3等模型雖參數量略小于GPT-4，但在算力利用效率及成本控制方面表現出更強的工程優化能力，如Deepseek-V3使用2048塊H800 GPU訓練56天，總成本控制在600萬美元以內，為國內廠商在芯片受限背景下，實現AI加速卡高利用率、訓練整體高性價比提供可能性。

AI大模型訓練驅動算力需求增長，國外廠商定制AI芯片采購量占比高。英偉達 Hopper架構是2022年推出的最新一代高性能計算、深度學習和人工智能應用的計算架構。它繼承了前代架構（Ampere）的優點，并在多個方面進行了優化，旨在提供更高的計算效率和靈活性。Hopper架構的顯卡型號包括H100、H200、H800和H20，其中H800和H20是針對中國市場的定制版本。根據Omdia報告數據，2024年英偉達Hooper架構芯片出貨客戶中，微軟以48.5萬張的采購數位于首位，Meta、特斯拉、亞馬遜和谷歌的采購量分別達到22.4萬/20萬 /19.6萬/16.9萬張；字節跳動和騰訊均達到約23萬張，阿里巴巴和百度也分別達到5.8 萬/2萬張，包括訓練卡和推理卡，數量上H20占多數。整體來看，Hopper架構芯片的出貨量集中于頭部企業，中美科技公司均將Hopper架構芯片作為生成式AI基礎設施的關鍵算力支撐，但部分公司已通過自研芯片或AMD替代方案降低對單一架構的依賴。考慮單芯片算力差距等因素，國內外廠商AI訓練的算力儲備仍存在不小的差距。

敏感性分析：基于以下假設條件，我們通過改變參數量-數據量之比，對用于AI大模型訓練需求的AI加速卡的數量做關于參數量和訓練token數量的敏感性分析，得到的結果如表3所示。（1）參數量取200~1400B之間，每200B為一個間隔。（2）數據量取4000~24000B tokens之間，每4000B tokens為一個間隔。（3）AI加速卡使用Hopper架構下的H100芯片（FP16：1,979TFLOPS，50%），正常訓練時單卡算力取1000TFLOPS。（4）訓練周期為60天。

國內AI算力不足的情況下，國內大模型公司通過算法迭代、架構升級等方式降低訓練成本。 Deepseek-V3的訓練規模為參數量672B、訓練數據14.8T tokens，其訓練56天僅需 2,048張H800 GPU，預訓練成本約557.6萬美元。而根據前文的計算方法大約需要 1.25萬張H100 GPU（H800與H100算力相當）。根據Deepseek-V3 Github官方主頁，其高效性主要得益于多項技術創新。具體而言， Deepseek在預訓練中設計并首次在超大規模模型上驗證了FP8混合精度訓練框架的可行性和有效性，突破了跨節點MoE訓練的通信瓶頸，近乎實現計算-通信的完全重疊，顯著提升了訓練的效率及成本效益。參考Deepseek的模型訓練屬性，表明AI 大模型訓練端成本依舊存在巨大的優化潛力，尤其在訓練架構及算法層面上能夠借鑒Deepseek的技術路徑或持續創新。

用戶與基于云端的AI大模型交互驅動AI推理側算力的增長。為測算AI大模型訪問量給廠商帶來新增的算力需求，我們進行以下假設：（1）AI加速卡使用A100（FP16：312TFLOPS，50%）芯片來測算。（2）AI大模型的單日訪問量為5億至7億人次之間。（3）每日每位訪問AI大模型的用戶的對話次數為10次：根據SimilarWeb的數據， 25年1月27日-2月2日，DeepSeek網頁版訪問的平均時長為5分鐘。通過觀察，在5 分鐘內，用戶平均對話問題在10個左右。（4）AI大模型每日正常使用時間為18小時：AI大模型的推理與用戶與其對話的時間相關。正常情況下，用戶在晚間睡眠時間（24:00-6:00）與AI大模型的互動較少。（5）單位AI加速卡每秒生成內容數量為1個：根據英偉達官網，A100針對于BERT類的AI大模型可實現每秒推理1757次。因此可假設單片A100用于AI大模型每秒生成 1757個單詞，與單次客戶需要生成的內容數量相當。由此測算出，在以上假設下，由于用戶對話和訪問AI大模型的推理量的增加，預計 AI加速卡需求在7.7萬~10.8萬張之間。

敏感性分析：以上測算中，單日對話次數和單日訪問量對于算力需求的影響較大。為進一步細化算力需求的測算，我們預計AI大模型的單日訪問量的范圍在5億人次到 9億人次之間；用戶與AI大模型單日的對話次數預計在7-13次之間，其余假設與上述測算相同，對用于AI大模型推理新增的AI加速卡的數量做關于單日對話次數和單日訪問量的敏感性分析。

參考報告

云計算行業分析：從AI大模型及智駕算力需求測算，看小米算力需求.pdf

云計算行業分析：從AI大模型及智駕算力需求測算，看小米算力需求。小米加大AI硬核投入。2月小米15Ultra發布會雷軍表示，小米25年研發費用將超300億元，其中1/4用于AI相關領域，重點聚焦AI基礎設施、大模型開發及應用場景搭建。5月小米15周年戰略新品發布會雷軍表示，2021年~2025年5年小米研發投入預計超1,000億元人民幣，未來五年研發投入將超2,000億元，主要聚焦于AI、OS、芯片三大底層技術的研發。AI基礎大模型、智駕均需要大量算力。小米早期模型主要方向為輕量化本地化小模型，24年底開始重點自研基礎大模型，已發布推理大模型MiMo-7B、多模態大模型MiMo-VL、語音大模...

查看詳情

更多舉報

相關報告

我來回答

快速提問

海量報告支持，行業專家解讀

海量文庫支持，行業專家解答

相關問題
最新問題

用戶解答榜

1
沃巴查芒
68次解答
2
每日新報
61次解答
3
StartYourFinance
57次解答
4
999感冒靈
55次解答
5
方琳
1次解答

AI大模型訓練與推理算力需求測算

云計算行業分析：從AI大模型及智駕算力需求測算，看小米算力需求.pdf

國能日新如何利用AI大模型構建電力交易業務的核心競爭力？

思特奇在算力網領域的核心競爭優勢及商業化落地情況如何？

2026年6月第一周傳媒行業AI應用數據表現及重點融資事件有哪些？

AI大模型商業化落地情況如何？

如何理解AI大模型對全球股市的復盤？

海內外AI大模型領域發展態勢如何？

金融機構如何部署AI大模型？

資管領域AI大模型場景應用、挑戰與啟示分析

AI大模型發展現狀與趨勢分析

如何看待AI大模型賦能業務場景？

手術機器人行業政策紅利如何釋放及國內外競爭格局差異？

歐萊雅如何通過多品牌矩陣與治理結構實現穿越周期的穩定增長？

AI算力建設如何驅動上游關鍵電子材料的技術迭代與供需格局變化？

大中礦業如何通過技術創新與產業鏈協同構建鋰礦業務的核心競爭優勢？

國能日新如何利用AI大模型構建電力交易業務的核心競爭力？

A股AI基礎設施交易結構中，雙錨龍頭的籌碼變化特征及非雙錨主池的擴散路徑是怎樣的？

SMR產業鏈核心環節及國內外主要供應商格局

造紙行業在碳雙控政策下的整合趨勢及箱板瓦楞紙供需格局變化

沃巴查芒

每日新報

StartYourFinance

999感冒靈

方琳