伴隨AI預訓練大模型持續發展,生成式人工智能(GenAI)算法不斷創新以及多模態 AI日益主流化,以ChatGPT為代表的GenAI技術加速成為AI領域的最新發展方向,推 動AI迎來下一個大發展、大繁榮的時代,將對經濟社會發展產生重大的影響。
1.G enAI技術定義及背景
GenAI(Generative AI,生成式人工智能)指的是通過人工智能技術自動生成內容的生產 方式。通過訓練模型來生成新的、與訓練數據相似的內容。與傳統類型的AI主要關注 識別和預測現有數據的模式不同,GenAI著重于創造新的、有創意的數據,其關鍵原 理在于學習和理解數據的分布,進而生成具有相似特征的新數據,在文本、圖像、音 頻、視頻等多種領域都有廣泛的應用。GenAI目前最引人注目的應用當屬ChatGPT。 ChatGPT是基于OpenAI公司的大語言模型GPT-3.5訓練、調試、優化的聊天機器人應 用,同一個AI模型可以處理各種各樣的文字和推理任務。 ChatGPT發布僅兩個月即獲得1億月活用戶,超越了歷史上所有互聯網消費者應用軟 件的用戶增長速度。以大語言模型、圖像生成模型為代表的GenAI技術,成為新一代 人工智能的平臺型技術,助力不同行業實現價值躍升。GenAI大爆發的背后,普遍認 為三個領域的AI技術的發展為其提供了肥沃的土壤,分別是生成算法、預訓練模型 和多模態技術。
第一,隨著各種生成算法的不斷創新突破,AI現在已經可以生成文字、代碼、圖 像、語音、視頻物體等各種類型的內容和數據。GenAI與過去最顯著的區別是從分析 式 AI(Analytical AI)發展為生成式AI(Generative AI)。分析式AI模型是根據已有數 據進行分析、判斷、預測,最典型的應用之一是內容智能推薦;生成式AI模型則是 學習已有數據后進行演繹、生成創造全新內容。 第二,預訓練模型,特別是以ChatGPT為代表的大模型,引發了GenAI技術能力的質 變。在過去,研究人員需要針對每一個類型的任務單獨訓練AI模型,訓練好的模型 只能從事特定任務,不具有通用性。而預訓練的大模型技術顯著提升了GenAI模型的 通用化能力.
和工業化水平,讓GenAI模型成為自動化內容生產的“工廠”和“流水線”。 GenAI 模型,包括ChatGPT、GPT-4等大語言模型(Large Language Models,LLM)和 Midjourney、Stable Diffusion等圖像生成模型,又被稱為基礎模型(Foundation Models),其作為基于種類豐富的海量數據預訓練的深度學習算法,展現出強大的、 更加泛化的語言理解和內容生成能力。以大語言模型(LLM)為例,經過海量的互聯 網內容數據的訓練,大語言模型的參數可以達到萬億甚至百萬億級別。這大大增強了 語言模型的生成能力,同一個大語言模型可以高質量地完成各種各樣的文字和推理任 務,例如作詩、寫文章、講故事、寫代碼、提供專業知識等等。因此,大語言模型已 經成為了各大企業競相追逐的AI方向。 第三,多模態AI技術的發展。多模態技術讓GenAI模型可以跨模態地去生成各種類型 的內容,比如把文字轉化為圖片、視頻(Sora)等等,進一步增強了GenAI模型的通 用能力。
3.GenAI應用領域
(1)多模態內容生成
A. 文本生成領域 自然語言生成是一種GenAI技術,可以生成逼真的自然語言文本。生成式AI可以 編寫文章、故事、詩歌等,為作家和內容創作者提供新的創作方式。同時,它還 可以用于智能對話系統,提高用戶與AI的交流體驗。ChatGPT(全名:Chat Generative Pre-trained Transformer對話生成式預訓練變換模型 )是由OpenAI開發的 一個人工 智能聊天機器人程序,于2022年11月推出。該程序使用基于GPT-3.5架 構的大語言模型并通過強化學習進行訓練。 ChatGPT 目前仍以文字方式互動,可以解決包括自動文本生成、自動問答、自動 摘要等在內的多種任務。Jasper已經開始為谷歌、臉書等知名公司提供文案 GenAI的商業服務。 B. 圖像生成領域 圖像生成是GenAI技術中最為普遍的應用之一。Stability AI發布了穩定擴散 (Stable Diffusion)模型,通過開源快速迭代大幅降低了AI繪畫的技術使用門 檻,消費者可以通過訂閱旗下產品DreamStudio來輸入文本提示詞生成繪畫作 品,產品已經吸引全球 50多個國家超過100萬的用戶注冊。
C. 音視頻創作與生成 2024年2月16日, OpenAI繼一年前發布ChatGPT語言大模型之后,又發布了一款基于 人工智能技術的視頻生成工具Sora,再次引發轟動。這是一款輸入文本即可自動生成 高質量視頻的文生視頻大模型,實現了視頻生成領域革命性變革,提供了全新的視 覺體驗。在部分樣片中,Sora還展現了對“物理規律”超強的學習能力,如能夠模擬 現實環境中的重力、碰撞等物理現象,可以通過直播視頻功能實時傳遞信息,用于 直播秀、在線教育、遠程醫療等場合。在“現實已經不存在”的驚呼聲 中,Sora確 實打開了人類視頻創作的新天空,它將重塑視覺內容生成的未來,同時也反映出人 工智能技術遠超預期的快速進步。有媒體稱,Sora 不僅僅是一個工具,更是一種新 的生活方式,將會對整個社會產生重要影響。 GenAI技術還可以用于語音合成,即生成逼真的語音。例如,通過學習人類的語音特 征,生成式模型可以生成逼真的語音,從而用于虛擬助手、語音翻譯等應用。GenAI 技術可以用于生成音樂。生成式AI可以根據給定的風格和旋律創作新的音樂作品, 為音樂家提供新的創作靈感。這種技術還可以幫助音樂家更有效地探索音樂風格和 元素的組合。這些曲目可以用于音樂創作、廣告音樂等應用。
D. 電影與游戲 GenAI可以用于生成虛擬角色、場景和動畫,為電影和游戲制作帶來更多的創意可 能。此外,AI還可以根據用戶的喜好和行為生成個性化的故事情節和游戲體驗。 2023年3月,騰訊AI Lab在GDC上提出了3D虛擬場景自動生成解決方案,能夠幫助游 戲開發者以更低成本創造風格多樣、貼近現實的虛擬城市,提升3D虛擬場景的生產 效率。其中重點分享了城市布局生成、建筑外觀生成和室內映射生成三大能力。整 個路網生成和微調過程僅需要不到30分鐘,相比手動設計效率提升近100倍;而單個 獨特建筑的制作時間也降低至17.5分鐘,大大提升了場景制作的效率。 E. 代碼生成領域 經過自然語言和數十億行代碼的訓練。部分GenAI模型精通十幾種語言,包括 Python、JavaScript、Go、Perl、PHP、Ruby等等。能夠根據自然語言的指令生成相應 的代碼。 GitHub Copilot是一個GitHub和OpenAI合作產生的AI代碼生成工具,可根據命名或 者正在編輯的代碼上下文為開發者提供代碼建議。官方介紹其已經接受了來自 GitHub 上公開可用存儲庫的數十億行代碼的訓練,支持大多數編程語言。
(2) 翻譯
GenAI可以直接應用于翻譯實踐之中,與傳統機器翻譯系統采用以句子為單位的方 式訓練不同,大語言模型采用以單詞為單位的方式進行訓練。這使得大語言模型可 以理解并再現單詞之間的連貫性和上下文信息,譯文因而更加自然、準確。此外, 傳統機器翻譯系統在遇到較為復雜的語言環境時,往往會出現句法和語義方面的錯 誤,而大語言模型可以應付更為復雜的語言環境,產出更為準確、自然的譯文。相 比較而言,大語言模型在翻譯方面展現的性能要比傳統機器翻譯更加突出,能夠產 出可與人工翻譯譯文相媲美的翻譯作品。
(3) 內容理解與分析
騰訊會議AI小助手:只需通過簡單自然的會議指令,基于對會議內容的理解,就 可以完成信息提取、內容分析、會管會控等多種復雜任務。會后可以自動生成智能 總結摘要,還能基于智能錄制的能力,幫助用戶高效回顧,提升用戶開會和信息流 轉效率。
(4) 科研與創新(AI for Science)
GenAI可以在化學、生物學、物理學等領域探索新的理論和實驗方法,幫助科學家發 現新的知識。此外,GenAI還可以用于藥物設計、材料科學等領域,加速技術創新和 發展。