自 2025 年 3 月 Monica 團隊發布通用 Agent-Manus 以來,多個 AI Agent 的通用應 用也相繼落地。
1. Manus:透明化的通用 AI Agent
Manus 是由 Monica 于 2025 年 3 月 6 日發布的通用型 AI Agent,其核心定位是作 為“數字員工”,能夠在隔離的沙盒環境中自主運行,并調用各類工具完成復雜任 務。該應用將基礎模型(如 Claude 和 Qwen)封裝在一個強大的執行框架內。其 目標是讓 AI 從一個被動的問答工具,轉變為一個能夠理解用戶意圖、自主規劃并 執行多步驟任務的主動工作伙伴。 1) “CodeAct”范式下的自主代碼執行。Manus 的核心創新在于其“代碼即行 動”(CodeAct)范式,即將可執行的 Python 代碼作為與數字世界交互的主要 方式,而非依賴有限的預設指令。這種理念將代碼視為描述復雜操作的最通 用語言,使得 AI 在接到任務時,能像人類開發者一樣生成包含條件邏輯、循 環和錯誤處理的腳本來完成動作。其優勢在于極大的靈活性和強大的能力, AI 可以在代碼執行出錯后分析信息、修改代碼并重試,實現“自主調試”,從 而將自身的操作空間擴展到數據分析、軟件開發等幾乎無限的編程領域。 2) 沙盒化的云端環境與模塊化工具集。為確保安全與穩定,Manus 在云端一個 完全隔離的虛擬計算環境中運行。每個任務都會被分配一個獨立的沙盒 (Sandbox),這本質上是一個預裝了完整操作系統的 Docker 容器。在這個受 控的環境中,Manus 被授予了一套強大的模塊化工具集,可以像人類一樣使 用終端執行系統命令、控制無頭瀏覽器瀏覽網頁并交互、在文件系統中讀寫 數據以保存工作進度。這種沙盒化的架構,既賦予了 AI 強大的執行能力,又 保證了所有操作都在安全可控的范圍內進行,不會影響外部系統。 3) 多模型、多智能體的后臺編排架構。Manus 的強大能力由一個復雜的后臺編 排系統支撐,該系統能夠動態調度多種 AI 模型和內部模塊。雖然 Manus 并 未公開其技術細節,但根據技術架構推測,Manus 的“大腦”并非單一模型, 而是根據任務性質靈活調用 Claude、Qwen 乃至 GPT-4 等不同模型的混合骨 干。系統的運作遵循一個“分析-規劃-執行-觀察”的清晰智能體循環,確保 每一步行動都穩健且可控。此外,其架構支持多智能體協作,通過規劃智能 體(Planner Agent)、執行智能體(Execution Agent)和驗證智能體(Verification Agent)三個核心智能體的協同工作來處理任務,從而高效地完成生成完整報 告或部署網站等復合型任務。
2. Genspark Super Agent(Genspark 超級智能體):一體化 Agentic 工作空間
Genspark Super Agent 是由 MainFunc 所推出的 AI 原生工作平臺。該產品最初于 2024 年 6 月 18 日以“AI Agentic Engine”的定位面世,經過快速迭代,現已發展 成全面的智能工作系統。它集成了一系列功能強大的 Agents,包括能夠處理復雜 任務的高級 Agents(如 AI Slides、AI Sheets、AI Docs 和 Deep Research 等),以及 支持多模態內容創作的基礎智能體(如 Image Studio 和 Generate Video)。其目的 是通過“智能體混合系統”將用戶從繁瑣的執行流程中解放出來:用戶提出目標, Genspark 便能自主完成研究、分析、內容創作及信息核實等一系列復雜任務。 1) “Vibe Working”理念下的無縫自動化體驗:Genspark 的核心產品哲學是 “Vibe Working”,旨在通過自然語言提示實現所有工作的自動化,從而根本 性地提升工作效率與體驗。這一理念貫穿其所有產品線,其核心假設是,在 AI 時代,用戶應專注于表達意圖(“Vibe”),而非構建復雜的工作流。例如, Genspark 在 2025 年 7 月 2 日推出的 AI Docs 產品允許用戶通過單一提示創 建任何類型的文檔,而 Super Agent 則能自主處理諸如撥打電話、生成演示文 稿等復雜任務,無需用戶進行任何工作流配置或設置。 2) 垂直整合的全 Agentic 工具套件:Genspark 通過系統性地發布一系列互聯互 通的 Agentic 工具,構建了一個其稱之為“一體化 AI 工作空間”的閉環生態 系統。這個產品矩陣始于 AI 搜索,并擴展至 AI 瀏覽器、AI Docs、AI Slides、 AI Sheets、AI Drive 等核心生產力工具,形成了 Genspark 所描述的“AI 時代 的經典生產力三件套”。 3) 多模型、多工具的后臺編排架構:Genspark 的強大功能由一個復雜的后臺編 排系統支撐,該系統能夠動態地調度和管理多種 AI 模型與工具。Genspark 在 后臺協同運作 9 個專業化的大型語言模型和超過 80 個集成工具,為每個子任 務動態分配最合適的組件。其系統深度集成了 OpenAI 的模型,包括 GPT-4.1 和用于圖像生成的 GPT-image-1。其語音智能體功能“Call For Me”則利用 OpenAI Realtime API 實現自然流暢的實時通話,并通過一個獨特的雙層系統 (由 Realtime API 處理實時對話,一個“影子模型”通過消息隊列進行監控和引導)來確保交互的連貫性。此外,Genspark 還發布了自有的“混合智能 體(Mixture-of-Agents, MoA)”系統,并在其 v2 版本中集成了 Gemini 2.0 等 業界領先模型,以追求最佳性能。這種將復雜性作為服務(Complexity as a Service)的模式,是 Genspark 的核心價值主張。用戶無需關心底層模型的選 擇與工具的調用,平臺本身就是那個智能的“調度中心”。
3. Fellou:Agentic 瀏覽器及其 Eko 框架
Fellou 是一款智能體瀏覽器(Agentic Browser),2025 年 5 月 11 日發布,深度融 合了瀏覽器、機器人流程自動化(RPA)與自主智能體技術,能夠精準理解用戶的 自然語言指令,并將復雜任務自主拆解為跨網頁的自動化工作流,以執行深度搜 索、數據整合及報告撰寫等操作。 1) 作為開源基礎的 Eko 框架。Eko(Eko Keeps Operating 的縮寫)是一個生產 級的開源 JavaScript 框架,專為創建從簡單命令到復雜工作流的可靠 AI 智能 體而設計。它是 Fellou 瀏覽器的技術基石,但也被作為一個獨立的開發者工 具提供。Eko 框架的核心特性是其統一的接口,支持智能體在計算機和瀏覽 器兩種環境中無縫運行。它具備多智能體協同、靈活的工具與智能體定制、 人機協同(Human-in-the-loop)干預以及動態選擇大型語言模型等高級功能。 Eko 的開源性質及其詳盡的文檔,使其成為開發者構建自定義 Agentic 工作流 的強大基礎。 2) 用于跨應用自動化的“深度行動”工作流。Fellou 瀏覽器的標志性功能是其 “深度行動-工作流”(Deep Action-Workflow),它允許智能體自主執行跨越多 個應用程序的復雜任務。用戶只需給出一個簡單的高級指令,例如,“查找下 個月從紐約到倫敦的最便宜航班,預訂最佳選項并將其添加到我的日歷”,智 能體便會接管瀏覽器甚至其他桌面應用,自主完成整個多步驟流程。它能夠 像人類用戶一樣“看到”屏幕,點擊按鈕,填充表單,并在不同網站之間無 縫跳轉,全程無需人工干預。此外,用戶還可在任務執行中隨時進行實時干 預以調整方向,避免重復操作;通過 Deep Action 可視化編輯功能,用戶能以 拖拽方式直觀地調整步驟,使規劃流程完全透明可控。這些強大能力背后是 Eko 框架對瀏覽器和計算機自動化任務的底層支持。 3) 面向開發者的混合語言設計。Eko 框架從設計之初就強調其“生產級”的可 靠性,并通過一種獨特的混合設計語言來滿足開發者的需求。該框架允許開 發者同時使用自然語言和傳統的編程語言(JavaScript/TypeScript)來編寫智 能體。這種設計旨在彌合高級、模糊的任務描述與底層、精確的系統操作之 間的鴻溝,這對于構建商業級的可靠應用至關重要。許多早期的智能體框架 雖然擅長快速原型驗證,但在可靠性和確定性上表現不佳。Eko 的混合語言 設計直接解決了這一痛點:開發者可以用自然語言定義工作流的靈活部分, 同時用經過嚴格測試的代碼來控制關鍵的、不容出錯的操作。這種對生產可 靠性的關注,使得 Eko 對于那些希望構建商業化智能體應用的開發者極具吸 引力。
4. Skywork Super Agents(天工超級智能體):高效智能 Agent 平臺
Skywork Super Agents(天工超級智能體)由昆侖萬維旗下“天工 AI 搜索引擎”發 展而來,在歷經數次版本迭代后,于 2025 年 5 月 22 日正式發布。作為一款集搜 索增強、多模態生成與復雜任務分解能力于一體的智能平臺,Skywork 的核心是 其基于混合專家模型(MoE)構建的智能體(Agent)系統。該系統利用高效的推 理與多任務處理能力,將用戶的自然語言指令轉化為復雜的自動化工作流,實現 從內容生成到數據分析的全流程賦能。
1) 強大的混合模型架構。Skywork 的核心驅動力是其專有的混合專家模型 (Skywork-MoE),該模型通過動態分配專家模塊來處理多樣化任務,顯著提 升推理效率和準確性。Skywork-MoE 支持多模態輸入(如文本、圖像),并能 自動優化資源分配,確保在內容生成、代碼編寫或數據分析等場景中實現高 性能輸出。這種架構類似于“復雜性即服務”,用戶無需手動配置模型細節, 平臺即可智能調度。 2) 一體化 Agentic 工作空間。Skywork 提供了一套垂直整合的智能 Agent 工具, 包括 AI 寫作、圖像生成和數據分析等功能。這些 Agent 被設計為互聯互通, 形成一個閉環生態系統。例如,用戶可以通過單一提示啟動“AI Writer”Agent 來自動生成文檔,或使用“Image Studio”Agent 進行多模態創作。其目標是 讓用戶專注于意圖表達,而非工作流構建,從而提升生產力。 3) 多工具與 API 集成。Skywork 的后臺系統支持與多種外部工具和 API 的無縫 集成,如結合 OpenAI 模型或自定義 SDK。通過動態編排機制,Skywork 可 以調用超過 50 個集成工具(包括數據處理和實時通信模塊),以處理復雜任 務。例如,在語音交互場景中,Skywork 利用類似“Call For Me”的 Agent 實 現自然對話,并通過雙層監控系統確保交互連貫性。
5. Minimax Agent:具有全棧能力的“靠譜”數字員工
Minimax Agent 是由稀宇極智(MiniMax)研發的 AI 智能體,其核心定位是成為 一個“靠譜”的數字員工。通過一套自研的復雜技術架構,調度多個“專家模型” 協同工作,Minimax Agent 旨在理解用戶的復雜指令,并自主規劃、執行包含多個 步驟的長程任務,最終交付高標準、可直接使用的成果,將 AI 從被動的問-答工 具轉變為真正賦能生產力的主動工作伙伴。 1) “一句話開發”的全棧應用構建能力:2025 年 7 月 16 日,Minimax Agent 正 式上線全棧開發功能。用戶僅需用一句話描述需求(例如“幫我做一個類似 Netflix 的電影推薦網站”),Agent 便能自主完成從前端界面設計、后端邏輯 開發、數據庫搭建到最終部署的全過程。它不僅能編寫代碼,還能主動進行 功能測試和 UI 自動化測試,確保交付應用的完整性和可用性。這種端到端的 自動化能力,極大地降低了復雜軟件應用的開發門檻。 2) 強大的自主調試與閉環糾錯機制:該智能體的核心優勢之一在于其強大的自 主糾錯能力。在執行任務(尤其是編程任務)時,如果遇到代碼執行失敗、 環境配置錯誤或 API 調用不通等問題,Minimax Agent 能夠像人類資深開發 者一樣,主動閱讀和分析錯誤日志(stack trace),定位問題根源,然后自主編 寫新的代碼來修復 bug 或解決環境問題,并重新嘗試執行。這種“分析-試錯 -修正”的閉環工作流,使其能夠攻克傳統代碼生成模型難以處理的動態錯誤, 從而極大地提升了任務的成功率和交付成果的可靠性。 3) 領先的多模態理解與內容生成生態:Minimax Agent 的能力構建于其強大的 自研多模態基礎模型之上。它通過一個名為 MCP(Multimodal Content Provider) 的生態系統,集成了業界領先的文本、圖像、音頻、視頻生成能力。這使其 在執行任務時,不僅能處理和分析文本信息,還能深度理解多種媒體格式的 輸入,并一鍵式地輸出圖文并茂、音畫結合的豐富內容,例如在制作演示文 稿或研究報告時,能自主配圖、生成數據圖表,甚至嵌入解說音頻。4) 面向復雜長程任務的智能“專家模型”調度架構:為了高效、可靠地完成“長 程復雜任務”(Long Horizon Complex Tasks),Minimax Agent 的后臺采用了 一套創新的調度系統。該系統會首先將用戶的宏觀指令拆解成一系列有序的 子任務,然后在執行每個子任務時,根據當前任務的性質(例如,規劃、編 碼、內容撰寫、數據分析、驗證等),從其模型庫中智能地調用最擅長該領域 的“專家模型”來執行。這種靈活的、各司其職的模塊化協作模式,確保了 任務流中每一個環節都能達到最優的輸出質量,從而保障了最終成果的專業 性與可靠性。
6. ChatGPT Agent:融合 OpenAI 最新技術的智能體
OpenAI 于 2025 年 7 月 17 日正式推出 ChatGPT Agent,其核心本能力在于代表用 戶在網絡上執行復雜的、端到端的工作流,例如預訂行程、管理郵件、構建網站 乃至進行深度研究并生成報告。

1) 融合深度研究與自主行動的統一架構:ChatGPT Agent 的核心在于整合了 OpenAI 此前分別推出的兩個專業工具:“Operator”和“Deep Research”。 Operator 專注于通過模擬人類交互來瀏覽和操作網站,而 Deep Research 則擅 長進行多源信息綜合與分析。將兩者的能力無縫結合,ChatGPT Agent 既能進 行深入的、跨越多個來源(包括公共網站、用戶上傳的文件和連接的第三方 應用)的研究,又能基于研究結果采取具體行動,如填寫表單或編輯電子表 格。
2) 強大的工具集與虛擬計算機:為實現自主操作,該智能體被授予了一個強大 的工具集,并在虛擬計算機中運行。該工具集包括:通過圖形用戶界面與網 絡交互的可視化瀏覽器、用于簡單推理型網絡查詢的文本瀏覽器、終端以及 直接 API 訪問權限,以及訪問公開 API 的能力。這種多工具方法使智能體能 夠根據任務的性質選擇最高效的執行方式,例如,在需要視覺理解的網站上 使用可視化瀏覽器,在處理數據時則調用終端。
3) 連接器與第三方生態系統集成:ChatGPT Agent 通過“連接器”(Connectors) 功能,能夠安全地訪問用戶的第三方應用程序,如 Gmail、Google Drive 和 GitHub。一旦用戶授權,智能體就可以讀取郵件、檢索云端文件或訪問代碼 庫,從而將用戶的個人和工作數據作為其執行任務的上下文。例如,它可以 根據用戶日歷和郵件內容來規劃會議,或利用 Google Drive 中的文檔來創建 PPT。
4) 用戶協同與安全控制:ChatGPT 智能體的設計仍確保用戶始終處于控制地位。 智能體在執行發送郵件或提交表單等關鍵操作前會暫停并請求用戶確認。用 戶可以在一個側邊窗口實時監控智能體的所有行動,并隨時介入以修改指令、 暫停或完全終止任務。對于需要輸入密碼等敏感信息的登錄過程,智能體會 提示用戶進入接管模式,在此模式下由用戶手動輸入,期間系統不會記錄截 圖或密碼,以保障賬戶安全。