具身智能行業現狀、技術路線與發展趨勢分析

提問時間：2025/06/05
瀏覽次數：162
提問者：匿名用戶
舉報
分享微信 QQ 微博

標簽

具身智能

共有1個回答
關注問題
我來回答

最佳答案由匿名用戶編輯于2025/06/05 08:50

全球具身智能提速發展，科技巨頭布局具身智能生態。

全球主要經濟體均高度重視具身智能的發展，不斷提升細分領域關注度。具身智能技術不斷創新，國內外知名企業積極布局。具身智能在各大企業的推動下正快速發展，技術不斷創新，應用場景日益廣泛。從軟硬件解耦技術到人形機器人的研發與應用，再到與大模型的深度融合，具身智能正逐步成為人工智能領域的重要分支。特斯拉、谷歌、英偉達、Figureone、宇樹科技、智元、小米、優必選、華為、科大訊飛等國內外多家知名企業均在具身智能領域積極布局，并已取得顯著進展。

技術發展一脈相承，車企加速部署人形機器人。自動駕駛是具身智能的一個重要場景，都具備“感知決策-規劃-控制”的算法架構，具身智能和自動駕駛在技術實現路徑上是一脈相承的，且算法與零部件可實現高度復用，這是 Tesla 給業界帶來的啟示。當下，智能輔助駕駛已經跑通商業化路徑，進入卷交付、卷規模、卷性價比的階段，這為具身智能未來的技術打磨路徑和商業化提供了一些參考。同時，汽車行業從主機廠到供應商，從投資人到創業者，都在從自動駕駛轉向追求更多場景的具身智能：主機廠或自研或投資具身智能公司，而人形機器人企業也在尋求機器人“進場打工”的機會。

如果說 OpenAI 的 ChatGPT 引爆了 2023 年對大語言模型的投資熱潮，那么 Tesla 入局人形機器人和黃仁勛的“AI 的下一個浪潮是具身智能”，則徹底帶火了具身智能與人形機器人領域的投資熱潮，成為 2024 年科技產業投資的最大熱點。

從投資角度看，頭部人形機器人的本體研發集成廠商已經歷多輪融資，估值較高，行業整體投資熱點正從人形機器人本體向具身智能模型和其他上游零部件遷移。

具身智能系統通過“大腦”（感知、理解和規劃，基于大語言和視覺語言模型）、“小腦”（運動控制和動作生成，基于運動控制算法和反饋控制系統）和“身體”（動作執行，由機器人本體支持）三個層級協同工作。

1、算法：大模型是現階段“大腦”的最佳解決方案。讓機器人“大腦”實現突破最核心的推動力是大模型實現涌現、成為真正的生產力。大模型的能力與機器人的需求十分契合，只需要告訴機器人它要做的任務是什么，機器人就會理解需要做的事情，拆分任務動作，生成應用層控制指令，并根據任務過程反饋修正動作，最終完成人類交給的任務，整個過程基本不需要或者僅需少量人類的介入和確認，基本實現了機器人自主化運行，無需掌握機器人專業操作知識的機器人應用工程師介入。

目前，具身大模型可以分為兩大流派。一類是端到端大模型，一類是分層具身大模型。從人體“大腦-小腦-肢體”的架構來看，分層大模型通過不同層次模型協作，利用底層硬件層和中間響應快的小模型彌補上層大語言模型的不足，推動機器人在實際場景的應用，并越來越多地采用基于學習的控制方法。 VLA 等端到端模型能夠直接實現從人類指令到機械臂執行，即輸入圖像及文本指令，輸出夾爪末端動作。分層式路線一度是主流選擇，因為端到端路線受數據制約難以達到性能要求；機器人數據正在逐步積累，端到端路線在未來可能成為主流。

（1）端到端大模型。端到端大模型可實現直接端到端地從人類指令到機械臂執行，即輸入是圖像及文本指令，輸出是夾爪末端動作。以谷歌的 RT-1 到 RT-2 的進化迭代為例：谷歌 RT-1——關注泛化能力：2022 年，谷歌機器人研究團隊歷時 17 個月基于 13 個機器人得到了 130k episodes 以及超過 700 個任務的數據，在該數據集的基礎之上，基于模仿學習中行為克隆學習范式，把 Transformer 應用機器人的操縱任務上，提出了 RT-1 模型。RT-1 的輸入由圖片序列、自然語言指令構成，輸出由機械臂運動的目標位姿(Toll,pitchgaw,gripper stαtus)、基座的運動、模式轉換指令構成。谷歌 RT-2——獲得涌現能力：2023 年，Google 的 DeepMind 團隊基于互聯網上數據訓練視覺-語言模型(VLM)，使其能夠學習到更多關于視覺和語言之間映射關系的知識后，在機器人操縱任務上微調，提出了 RT-2。RT-2 的目標是訓練一個學習機器人觀測到動作的端到端模型，且能夠利用大規模預訓練視覺語言模型的益處，經測評，這類學習方法產生的 Vision-Language-Action(VLA)模型獲得了涌現能力。

端到端大模型 2.0 階段：VLA。以谷歌 RT-2 發布為標志，VLA 模型正式進入人們的視野中并快速發展。VLA 模型是在視覺語言模型（VLM）的基礎上發展而來的。在 VLM 基礎上，它還利用了機器人或汽車運動軌跡的數據，進一步訓練這些現有的 VLM，以輸出可用于機器人或汽車控制的動作序列。通過這種方式，VLA 可以解釋復雜的指令并在物理世界中執行相應的動作。

端到端大模型的主要優缺點：優點（以 VLA 為例）：1）端到端架構：VLA 是一個端到端的大模型，這意味著它可以簡化傳統上需要多個獨立模塊才能完成的任務流程。這不僅可以提高系統的效率，還能增強其靈活性和適應性。2）泛化能力：VLA 具有強大的泛化能力。以谷歌 DeepMind 推出的 RT-2 為例，該模型可以在新的物體、背景和環境中表現出顯著改善的性能。它可以理解并響應那些在訓練數據集中未曾出現過的命令，并基于底層語言模型提供的思路鏈進行推理，從而做出合理的決策。3）通用性：VLA 具備高度的通用性。由于它是建立在一個通用的大規模預訓練基礎上，因此理論上幾乎所有的 “智能機器設備”都可以使用這套算法。無論是汽車、飛行器還是其他類型的機器人，只需要經過適當的微調就能滿足特定應用場景的需求。

缺點：1）數據來源非常有限：谷歌在 MountainVillage（美國加州）辦公室的廚房里采集了 17 個月，得到 13 萬條數據，使得其機器人在谷歌的廚房里表現可以非常好。但一旦出了這個廚房，需要考察其環境泛化性，它的成功率就從 97%驟降到 30%左右。并且這種泛化是有選擇的泛化，不是將其直接放到施工工地、非常嘈雜的后廚等場景中。2）推理、響應速度仍有待提升：RT-2 大模型中包含了谷歌上一代大模型 PaLM-E，它的速度只能達到 1～3Hz，對應機器人的反射弧長達 0.3 秒甚至 1 秒。

（2）分層端到端大模型。分層決策模型通過將感知、規劃決策、控制和執行各模塊分解為多個層級，分別突破“大腦”和“小腦”，利用不同的神經網絡進行訓練，最終再整合起來。一個典型案例如 Figure02。Figure02 采用三層級方案：1）頂層集成了 OpenAI 的大模型，負責視覺推理和語言理解；2）中間層是神經網絡策略（NNP），負責快速、靈巧的操作，將視覺信息直接轉換為動作指令，并輸出這些指令；3）底層是全身控制器，負責提供穩定的基礎控制，在接收 NNP 的動作指令后，輸出各關節的扭矩指令。另一典例如銀河通用的三層級大模型方案。1）底層是硬件層，2）中間層是通過仿真合成數據不用任何真實世界數據訓練的泛化的技能，3）最上層是大模型，可以調度中間技能 API，來實現完整的從任務的感知、規劃到執行的全流程。

分層模型中，大模型為“大腦”。在分層端到端模型方案中，機器人的四大板塊（感知、規劃決策、控制和執行），逐漸被類人化地劃分為負責解決高層次認知或決策問題（highlevel）的“大腦”，以及負責基礎層面的功能性問題（lowlevel）的“小腦”。兩大系統各司其職又互相合作，“大腦”負責解析任務需求，整合來自傳感器的信息，進行任務的細化和策略規劃；“小腦”則專注于精細的運動控制，確保在“大腦” 制定的策略指導下，機器人能夠準確無誤地執行動作并進行必要的調整。目前較為普遍的方向是，機器人的“大腦”由大模型來擔任，“小腦”則依然為底層控制算法。大腦：負責 highlevel 的感知和規劃決策系統，是多模態大模型。基于多模態大模型，機器人能學習、理解、融合和對齊各傳感器采集而來的跨模態信息，實現對復雜環境的魯棒建模與更精準、通用的感知，并根據環境情況，自主拆解任務、規劃動作。目前基于大模型的“大腦”技術路線正處在并行探索階段，并逐漸向端到端的大模型演進。

現階段主要是 4 條技術路線：1）LLM（大語言模型）+VFM（視覺基礎模型）：實現人機語言交互、任務理解、推理和規劃，目前最為成熟。主要代表是谷歌的 SayCan 模型。2）VLM（視覺-語言模型）：彌合語言與視覺理解間的差距，實現更準確的任務規劃和決策，主要代表是清華大學的 CoPa 模型，利用嵌入在基礎模型（比如視覺語言模型的代表 GPT-4V）中的常識知識為開放世界機器人操控生成一系列的自由度末端執行器姿勢，生成的操控任務分為任務導向抓取和感知運動規劃。3）VLA（視覺-語言-動作模型）：在 VLM 基礎上增加運動控制，解決機器人運動軌跡決策問題。主要代表是谷歌 RT-H 模型，學習語言和運動，并使用視覺上下文，通過利用語言-視覺-動作結合的多任務數據集學習更強大和靈活的動作策略。

4）多模態大模型：實現對物理世界環境的全面感知，是未來的主要研究方向。主要代表是麻省理工、IBM 等共同研究的 MultiPLY 模型，將視覺、觸覺、語音等 3D 環境的各類特征作為輸入，以形成場景外觀的初步印象，并通過多視圖關聯將印象中的輸出融合到 3D，最終得到以對象為中心的場景特征。 “小腦”：加載人工智能技術，運動方式更加擬人。“小腦”的運動規劃與控制是人形機器人實現自然和流暢動作的關鍵。目前，“小腦”運動控制包括基于模型的控制方法和基于學習的控制方式兩個大類。傳統的基于模型的控制方法：通過建立機器人的運動學和動力學模型，進行運動軌跡規劃和平衡控制。這一類方法的特點是身體控制穩健，但步頻較慢，且整體開發較為復雜，成本高，不利于產品快速迭代。基于模型的控制方法具體包括 ZMP 判據及預觀控制、混雜零動態規劃方法、虛擬模型解耦控制、模型預測控制+全身控制（MPC+WBC）等。基于學習的控制方法：使用端到端的人工智能技術，代替復雜的運動學模型，大幅度降低了“小腦”開發難度、提升了迭代速度，一般通過人類示教或自主學習建立運動執行策略，其中通過人類示教的方式也稱為模仿學習，效果依賴高質量示范數據；通過自主學習的方式也稱為強化學習（Reinforcement Learning，RL），指通過精心設計學習目標，機器人不斷在環境中探索逐漸發現最大化獎勵的方式學習到最優的執行策略，效果依賴于仿真環境。

通往 One-Model 端到端大模型是個循序漸進的過程。根據智元機器人定義的路線圖，當前具身智能大腦已經具備認知、推理、規劃的能力，且而小腦層面機器人技能任務的訓練也是通過深度學習以驅動的。隨著場景、數據的增多，多個特定小模型會逐漸泛化為通用操作大模型，并最終實現與上層模型的融合。

2、訓練及數據采集：采集方式不斷進化。當前的具身智能是通過深度學習技術（模仿學習、強化學習等）從大量數據中學習并實現的，巨量的、優質的、多樣的數據，是具身智能機器人能夠實現各種各樣自主操作的基礎。數據采集方式呈現多元化，遠程操作、機器人自主探索、仿真合成數據等方式各有優劣，為具身智能訓練數據集添磚加瓦。自動駕駛的數據采集方式具備借鑒意義：在規模化部署以后，機器人在影子模式下自主探索，通過與環境互動收集多元數據，在云端形成數據閉環，再反哺模型的調整與訓練，這也是具身感知、學習的具體表現。

（1）遠程操作。遠程操作，即由實驗人員操作機械手柄，遠程控制機器人做出相同動作，以此來積累數據。近期的研究通過多個操作員協作收集了大規模多樣化的數據集，結果表明，基于這些數據集訓練的機器人表現出色，甚至能夠在不同環境中泛化。然而，數據采集是這一方法更廣泛應用的主要瓶頸。在單臂機器人任務中，數據采集通常需要多個操作員、機器人以及數月的人力投入。針對類人機器人的數據采集則更具挑戰性，因為同時控制多只手臂和多指靈巧手的復雜性較高。為了實現類人機器人的實時遠程操作，研究人員開發了專門的遠程操作界面，但這些界面的成本高昂，難以實現規模化。類人機器人的任務復雜性也更高，因此數據需求更大，但由于操作員需同時控制多臂和多指手，工作負擔大幅增加，數據采集也更加困難。

（2）仿真。所謂仿真，即通過海量算力進行模擬運算，計算得出海量機器人訓練數據集。仿真可能是目前最有可能做到規模化數據生成的路徑，不過其背后需要巨大的算力支持。 2024 年 11 月，來自英偉達、UT Austin 和 UCSD 的研究人員推出了一種大規模自動化數據生成系統— —DexMimicGen。它可基于少量人類演示合成類人機器人的靈巧手運動軌跡，幫助實現在更少人工干預下擴大類人數據的采集。DexMimicGen 的核心思想是利用一小組人類演示，并通過在物理仿真中進行演示轉換和重放，自動生成大量適用于雙手靈巧操作場景中模仿學習的訓練數據。例如，從僅 5 個源人類演示開始，DexMimicGen 可以生成 1000 個雙手靈巧任務的演示。研究團隊從 60 個源人類演示中總共生成了 21000 個演示，涵蓋了 9 種不同的任務。研究團隊發現，相較僅依賴源演示，DexMimicGen大幅提升了策略成功率，所有任務中基于 DexMimicGen 數據集訓練的機器人表現明顯優于僅基于少量源數據訓練的機器人。且隨著 DexMimicGen 數據量的增加，策略的性能也隨之提升。

（3）AR。在一項名為《Explainable Human-Robot Training and Cooperation with Augmented Reality》的研究中，研究人員通過 AR（增強現實）技術讓人機交互過程具備更強的可解釋性，從而進行數據積累。 2024 年 10 月，斯坦福李飛飛團隊發表論文《ARCap：Collecting High-quality Human Demonstrations for Robot Learning with Augmented Reality Feedback》，提出了 ARCap 系統。 ARCap 是一種便攜式數據收集系統，它通過增強現實（AR）和觸覺警告提供視覺反饋，以指導用戶收集高質量的演示。ARCap 使新手用戶能夠收集與機器人運動學相匹配的機器人可執行數據，并避免與場景發生碰撞。利用從 ARCap 收集的數據，機器人可以執行具有挑戰性的任務，例如在雜亂的環境中進行操作和長視野跨具身操作。ARCap 完全開源且易于標定；所有組件均由現成的產品構建。

（4）視頻學習。視頻學習，即通過多模態大模型，直接讓機器人通過視頻學習人類動作，從而積累訓練數據。考慮到直接學習人類操作、人類遠程操控等方式的示教成本較高，“從人類視頻中學習”已成為機器人的主流訓練方法之一，如直接通過 YouTube 視頻進行策略學習。但視頻學習同樣有自己難以解決的問題：1）控制上：不同于以往的示教方法（如遙操作示教及拖動示教），視頻示教沒有提供機器人本體的 motion 數據，agent 需要僅根據演示視頻生成 action。2）感知方面，讓機器人理解人類演示視頻也具有很大挑戰，機器人與人類的視角不同，并且人類演示視頻中，每一幀是人手臂的運動圖像，而機器人捕獲的圖像是機械臂的運動圖像，這些原因導致了演示視頻與機器人感知的圖像之間存在 gap。

參考報告

具身智能行業深度：技術路線、市場機遇、產業鏈及相關公司深度梳理.pdf

具身智能行業深度：技術路線、市場機遇、產業鏈及相關公司深度梳理。隨著人工智能技術的飛速發展，具身智能正逐漸成為科技領域的前沿熱點。具身智能融合了人工智能、機器人技術、機器學習、感知科學等多學科知識，通過物理載體與環境的交互，實現自主學習與智能決策，展現出巨大的應用潛力和商業價值。從工業自動化到家庭服務，從醫療康復到公共安全，具身智能的應用場景不斷拓展，推動著人類社會向更加智能化的方向邁進。本報告深入剖析了具身智能行業的全貌，報告從行業概述出發，詳細梳理了具身智能的定義、核心要素、發展歷程，進一步分析了推動其快速發展的關鍵驅動因素。同時，報告深入探討了具身智能的行業現狀、市場規模預測、技術路線選...

查看詳情

更多舉報

相關報告

我來回答

快速提問

海量報告支持，行業專家解讀

海量文庫支持，行業專家解答

相關問題
最新問題

用戶解答榜

1
沃巴查芒
68次解答
2
每日新報
61次解答
3
StartYourFinance
57次解答
4
999感冒靈
55次解答
5
方琳
1次解答

具身智能行業現狀、技術路線與發展趨勢分析

具身智能行業深度：技術路線、市場機遇、產業鏈及相關公司深度梳理.pdf

天準科技在半導體明場檢測領域的國產替代進展及具身智能業務商業化落地情況如何？

綠源集團如何依托三電技術優勢切入具身智能核心零部件供應鏈？

華為韜定律如何通過系統級優化解決物理AI的實時性與能效挑戰？

具身智能產業鏈中電力設備環節的核心價值與技術壁壘體現在哪些方面？

滬光股份在具身智能及無人車輛領域的業務布局進展如何？

具身智能概念、核心價值與發展史回顧

具身智能市場規模、應用場景與產業鏈梳理

具身智能發展沿革、供需與政策情況如何？

越疆具身智能布局情況如何？

具身智能數據分類與現狀如何？

AI算力爆發背景下，機械設備行業哪些細分領域具備高確定性增長邏輯？

2026下半年鋼鐵行業供需格局演變及成本利潤修復邏輯是什么？

八馬茶業如何通過全渠道布局與品牌營銷構建高端茶市場競爭壁壘？

貝達藥業panRAS分子膠BPI-572270與panKRAS PROTAC BPI-585771的研發進展及競爭優勢分析

2026SID大會展示的口服創新藥物及新機制療法對AD治療格局有何潛在影響？

飛榮達在AI液冷及消費電子散熱領域的核心競爭優勢是什么？

美國三次經濟架構創新如何支撐其全球霸權及當前面臨何種結構性挑戰？

量價與基本面因子挖掘統一框架的核心邏輯與實證效果如何？

沃巴查芒

每日新報

StartYourFinance

999感冒靈

方琳