GenAI已經在醫療健康開始了應用探索與落地,包括藥物研發、臨床 研究、上市及商業化、以及用于病人診療等方面:
1.藥物研發
隨著人類社會對生物學、化學、物理學等的知識積累加深,我們對疾病的認識迅速提 升。然而新藥研發、上市的速率卻沒有同比例增長,其中一個重要原因是藥物研發階 段耗時長、成本高、流程復雜。現如今,GenAI成為潛在的破局利器,在藥物研發方 面已有越來越多的應用。GenAI可以通過分析大量的基因組學、蛋白質組學、代謝組 學等多組學數據,幫助研究人員更快地發現可能的靶點、藥物分子、藥物合成路線 等,從而加速藥物的發現和設計進程。
1.1 靶點發現與驗證
藥物靶點指的是藥物與人體內特定分子相互作用的目標位置,也可以是參與疾病發生 和發展的關鍵蛋白質、酶或細胞結構。靶點的發現是現代藥物研發的基礎,在藥物研 發的早期階段,科研人員通過對疾病發生機制的深入研究,尋找與疾病相關的靶點, 通過對這些靶點的深入了解,科研人員可以設計出針對性的藥物,干預其功能,從而 達到治療疾病的目的。但疾病的發生非常復雜,基因冗余和多效性、代償機制、信號 反饋等,都會降低靶點被藥物作用造成的影響。藥物立項要經過藥理學、毒理學、遺 傳學等多學科的檢驗,成功率非常低。疾病相關的靶點的早期識別和評估可以增加藥 物批準的機會。目前業界在致力于識別與特定疾病相關的生物學上最合理的靶點。近 年來,傳統的生信分析方法、多組學因子分析、知識圖譜、圖模型、深度學習等都較 多地應用于靶點發現中,而GenAI的發展,則提供了更強有力的技術支持去尋找新的 靶點、分析信號通路、以及尋求靶點與疾病相互關聯的證據支撐。 2022年, AI 制藥公司英矽智能(Insilico Medicine)在其靶點發現平臺 PandaOmics 上 增加了知識圖譜的功能,可以從期刊文獻中提取相關信息,將基因、疾病、化合物和生物過程聯系起來,并將關系網絡可視化形成知識圖譜。2023年3月,在ChatGPT 開放端口后,英矽智能將其接入靶點發現平臺PandaOmics。通過將知識圖譜與 ChatGPT相結合,得到了具有AI問答功能的ChatPandaGPT,支持研究人員在瀏覽和 分析大數據集的同時,高效開展基于自然語言的問答,更便捷發現潛在靶點和 生物標志物。
2023年底,英矽智能發布了全球首個“由AI輔助決策的自動化實驗室”,將GenAI應 用于高質量自動化實驗,并通過實驗數據反饋推動GenAI模型迭代優化。實現在14天 內完成靶點發現和驗證的全自動化干濕實驗閉環。目前,英矽智能宣布公司研 發的抗特發性肺纖維化候選藥物INS018_055已完成2期臨床試驗首批患者給藥,這 是全球首款由GenAI發現靶點并設計化合物的候選藥物。 2023年4月,水木分子開源了輕量科研版BioMedGPT-10B,將文獻、分子、蛋白、 測序、知識圖譜等數據壓縮到統一的多模態大模型框架內,實現了分子性質預測、 藥物-靶點親和力預測、性質預測、藥物敏感性預測、分子-文本跨模態檢索、分子文本跨模態信息生成等多項任務性能優于單一專用模型。

1.2.分子生成
(1)大分子生成
大分子藥物的作用機制主要是通過刺激機體免疫系統產生免疫物質(如抗體),從 而發揮其功效,在人體內出現體液免疫、細胞免疫或細胞介導免疫。大分子藥物如 抗體有更好的靶向性、mRNA有望帶來更好的疫苗與藥物等。但這些大分子結構復 雜,開發成本高,發現時間長。GenAI為此提供了新的解決方案,通過學習預測大 分子(例如核酸或氨基酸)的下一個子結構,并產生有關大分子的見解,這些見解 可用于新藥物載體的計算機設計、以及預測其在各種藥物研發檢測的效果。 人類一直以來都在探索如何更高效、直接、自由地控制細胞功能、甚至生命活動, 而運用 GenAI預測大分子結構使得這一切的可行性大大提升,并且其預測性能在精 度、范圍、耗時等方面正在不斷快速提高。以蛋白質為例,利用GenAI預測結構, 為解碼蛋白質的三維奧秘提供了高效手段,從而能夠直接按需制造蛋白質、甚至 是創造未知或不存在的蛋白,擴增出近乎無限的、廣闊的蛋白質序列和結構空 間,對生命科學和生物醫藥研究范式的影響將是顛覆性的。
目前,GenAI在蛋白質解碼和設計的應用主要有Transformer架構和擴散性模型兩大 構建思路。前者的代表是美國初創生物醫藥公司Profuluent在2023年1月開發的蛋白 質語言模型Progen。該模型基于Transformer架構的12億參數神經網絡,提供了一種 可根據所需屬性生成特定蛋白質的方法,從頭合成了自然界中不存在的人工酶, 引起了生命科學領域的廣泛關注。而后者構建思路則是采取了圖像生成領域常用 的擴散性模型的技術路徑,更加擅長基于文本生成圖像來描述蛋白質序列和結構 之間的關系,并以此快速生成蛋白質的骨架結構。例如2022年10月美國斯坦福大 學和微軟研究院經受體內蛋白質折疊過程的啟發,引入了一個折疊擴散模型,通 過鏡像蛋白質天然折疊過程實現蛋白質主鏈結構的設計,解決了直接生成結構復 雜多樣的蛋白質的難題。 掃描跨國大型藥企與科技公司動態,2023年12月,制藥巨頭阿斯利康與AI 抗體發 現技術初創公司Absci 簽署了 2.47 億美元協議,通過整合阿斯利康的腫瘤學研究和 開發知識、以及利用 Absci 的集成藥物創造平臺,借助GenAI 技術來開發新的、改 進的抗癌抗體療法。2023年10月,Deepmind聯合Isomorphic Labs共同發布了新一代 AlphaFold模型,從上一代的預測蛋白質結構,擴展到預測蛋白質數據庫(PDB) 中幾乎任何分子的結構,包括配體(小分子)、蛋白質、核酸(DNA 和 RNA)以 及含有翻譯后修飾(PTM)的生物分子。如改變氨基酸序列來改變蛋白質的性 能,用于設計和開發具有特定功能的酶;預測核酸結構,加速 mRNA 疫苗等醫療 創新;預測配體和蛋白質間的相互作用,幫助鑒定和設計可能成為藥物的新分子 等。Isomorphic Labs 正在將新一代 AlphaFold 模型應用于治療藥物設計,快速準確 地表征對治療疾病很重要的多種類型的大分子結構。
國內頭部藥企與AI制藥企業也在GenAI生成大分子藥物領域展開布局。2023年8 月,深圳晶泰科技宣布與石藥集團在創新藥研發AI領域達成戰略合作協議,結合 石藥集團深厚藥物研發經驗,利用晶泰科技開發的ProteinGPT大分子藥物生成式AI 模型,將“類GPT技術”應用于藥物研發,覆蓋抗體發現、抗體工程、抗原設計、 蛋白結合劑設計等多個藥物研發關鍵環節,一鍵生成符合要求的抗體或蛋白藥物。 荷蘭-瑞士初創公司 Cradle開發的生成人工智能 (GenAI) 和合成生物學平臺,旨在 設計基于蛋白質的療法和其他化合物,正在開展 12 個研發項目,關注工程酶、疫 苗、肽藥物和抗體,涵蓋廣泛所需蛋白質特性,如穩定性、表達、活性、結合親和 力和特異性。Cradle 的技術可以通過更少、更成功實驗大幅加快蛋白質的設計和優 化。與行業基準相比,大多數項目使用 Cradle 平臺的進度要快兩倍。
(2)小分子生成
小分子藥物研發中的一大重要難題是如何識別并且篩選出最有可能實現所需療效、 值得進一步測試優化的化合物,傳統上,藥物化學家會在實驗室制造化合物并進行 測試,耗時長、投資大,但人工智能可以改變這個過程。GenAI通過先進的基礎化 學模型加速篩選過程,如同GPT-4被訓練來預測句子中可能的下一個單詞,這些模 型可以預測小分子結構中的下一部分原子。通過多次迭代,該模型學習了小分子化 學的基本原理,即使在很大程度上未探索的化學領域,這些模型也可以提供更精確 的預測,醫藥公司可以通過這些預測來規劃后續篩選。 國外大型藥企與AI制藥企業紛紛開展合作,各取所長。2024年1月,默沙東宣布與 Variational AI公司達成合作,利用其Enki技術平臺,共同合作開發小分子藥物。 默沙東為Enki平臺提供目標產品概況(TPP),平臺基于GenAI技術,可在幾天時 間內生成符合條件的小分子。生成物是具有多樣化、選擇性和可合成的先導化合物 結構,從而快速進入先導化合物優化階段。法國藥物化學和新藥設計AI解決方案提 供商Iktos則是利用GenAI技術,降低化合物小分子篩選和生成所需的時間和成本。
其解決方案包括三個部分,一是通過Makya基于大量生物數據,來創建一種“滿足 所有條件”的分子,即在盡可能低的劑量下有效、安全、穩定、可申請專利且能夠 合成的分子;二是利用Spaya探索合成“配方”和途徑;三是通過Ilaka 軟件控制機 器人,一次性高效合成多種化合物,不斷重復上述過程,以找到更有前途的化合 物。目前其擁有 50 多個已完成或正在進行的項目,合作伙伴包括強生、默克、輝 瑞等跨國大型藥企。回看國內,多家AI制藥企業、大型藥企、科技公司等,也在布 局GenAI藥物分子生成。英矽智能推出小分子生成AI平臺Chemistry42,經過10萬種 公開化合物和100億個構建塊(或虛擬分子片段)的訓練,生成數百個具有所需特 性的化合物,被輸送到管道中評估適用性,并選擇滿足安全性、效力、合成可用性 和代謝穩定性等目標的分子。生成的分子及其后續分數將返回到生成引擎,以便模 型“學習”得分高的分子類型和得分低的分子類型,重新訓練生成模型以生成高分 分子,已實現在一周內發現全新的先導化合物類似分子,遠超人類科學家的速度。 自Chemistry42推出以來,已有40多家制藥公司授權該軟件并將其用于自己的管道程 序,以改善自己對下一個突破性療法的探索。
2022年4月份,華為云計算技術的健康智能實驗室推出了華為盤古藥物分子大模 型,該模型訓練了17億個小分子化合物的數據集,這一模型結合了藥物分子的圖形 結構和SMILES字符表示法,從兩個不同的角度理解分子,進而構建了一個自監督 的預訓練大模型。該模型適用于多個分子相關的后續任務,如預測分子屬性、生 成分子虛擬庫以及分子的優化等。目前盤古藥物模型的預訓練數據集是最大的,涵 蓋了多個公共數據源,盤古模型采用cVAE架構,將小分子的圖形表示轉換成相應 的化學式字符串,這樣做避免了在graph2graph模型中遇到的圖形生成的困難,并且 相比于seq2seq模型,在訓練階段能夠提供更多的信息。此外,通過設計分層的潛在 空間,盤古模型在微調和化學指紋表示方面的能力得到了增強。盤古的創新網絡結 構不僅易于訓練,還能夠通過僅更新一個核心網絡來支持所有藥物發現任務的步 驟,展現出顯著的優勢。

2023年底,深度勢能團隊聯合29家單位的通力協作,發布了深度勢能預訓練大模型 DPA-2。該模型面向豐富的下游任務,在微調DPA-2的"大模型"所需數據量整體上 減少了1-2個數量級。此外,經過進一步蒸餾和壓縮,深度勢能團隊還開發了"小模 型",該模型能夠保持過去模型的精度和效率。與去年發布的DPA-1相 比,DPA-2在模型架構方面有顯著的更新,最大的特點是采用了多任務訓練策略, 可以同時學習計算設置不同、標簽類型不同的各類數據集。由此產生的模型在下游 任務上展現出極強的few-shot甚至zero-shot遷移能力,顯著超越了過去的解決方 案。目前,用于訓練DPA-2模型的數據集已涵蓋了半導體、鈣鈦礦、合金、表面催 化、正極材料、固態電解質、有機分子等多個體系。
洛桑聯邦理工學院(EPFL)和美國羅切斯特大學的研究團隊,開發出了一款名為 ChemCrow的語言模型代理,這款代理能夠執行包括有機合成、藥物發現和材料設 計在內的多項化學任務。ChemCrow集成了17種由專家精心設計的工具,不僅提升 了其在化學領域的表現,還賦予了它新的能力。迄今為止,ChemCrow已成功自行 設計出一種驅蟲劑、三種有機催化劑以及其他相關分子。通過語言模型評估和專家 的評審,ChemCrow的有效性在自動執行各類化學任務方面得到了證實。
中科大MIRA Lab團隊與微軟研究院AI4Science團隊共同開發了一種創新的分子生成 模型,名為MiCaM。該模型通過構建一個含有數據驅動的高頻分子片段詞匯庫, 顯著優化了藥物分子的生成過程。MiCaM模型特別強調了對連接感知的高頻子圖 (Mined Connection-aware Motifs)的利用,這些子圖是通過數據驅動算法從分子 庫中自動提取的,它們不僅包括常見的分子片段,還細致記錄了這些片段之間的連 接信息。利用這一策略,MiCaM設計了一個能夠同時選擇分子片段并確定其連接 方式的生成器,從而能夠基于這些高頻子圖構造出全新的分子結構。在進行的兩項 基準測試中:一項是生成與訓練集高度相似的新分子(distribution learning),另 一項是創造具備特定目標屬性的新分子(goal-directed),MiCaM 模型展現了其在提高分子生成效率和探索化學空間方面的顯著能力。
2.臨床研究
以GenAI為代表的基于機器學習、深度神經網絡和多模態人工智能的應用有望從多 個角度優化臨床開發,包括篩選臨床試驗中心、監管合規、藥物選擇和患者入 組、臨床研究方案設計和試驗報告生成、以及提高藥物警戒等方面。以此,從根 本上改變醫療事務部和整個生物制藥或醫療技術行業管理科學發現、開發和商業 化的方式。最近在GenAI的動向總體呈現兩大規律,一是提升GenAI技術服務能 力,通過技術優勢獲得大型企業合作方的青睞;二是利用GenAI賦能自身自研管 線,以期轉型為創新藥研發中心或 藥企,鞏固行業領先優勢。
2.1監管合規
在臨床研究中,監管合規是一個非常重要的課題。研究人員需要遵守各種法規和規 定,以確保臨床研究的合法性和可靠性。然而,這些法規和規定通常非常復雜,需 要花費大量的時間和精力來理解和遵守。同時,不同地區的監管要求也可能存在差 異,這使得跨地域合規變得更加困難。傳統上,研究人員需要手動處理監管文本, 這非常耗時且容易出錯。如果能夠實現自動化處理監管文本,將大大提高研究人員 的效率,并減少錯誤的發生。最后,不合規可能會導致嚴重的財務風險,這將對研 究機構和企業造成巨大的損失。利用GenAI結合自然語言處理、機器學習、知識圖 譜構建等先進技術,能夠從龐大的法規文本中快速提取與特定目的相關的法規,加 速合規進程,并實現自動化處理監管文本,減少對第三方法律和合規支持的依賴。
2023年3月, Medidata 平臺發布了包含超過 30,000 項試驗與 900 萬名患者的 Medidata AI,將患者層面數據直接從試驗中的所有病例報告提取,確保臨床試驗 產生合規的數據質量,對數據輸入中的錯誤、異常值、前后不一致和錯誤報告中的 不良事件進行排序和分類,以加快藥品審批流程。此外,強生使用的GenAI項目針 對新藥上市合規審查的需求給予全方面的賦能,通過獲取國家藥監局、藥物審評中 心、中國食品藥品檢定研究所的法律法規、指導原則、相關公告等內容并定期更 新,利用大模型的能力進行智能語義檢索和細節內容問答,并可通過內置實體模型 對法規文檔進行主題分類和實體抽取。針對用戶對于藥品上市合規審查指導原則 進行全文問答,并溯源至原文段落、針對用戶對于法律法規中段落內容的提問,能 通過檢索問題相關的文檔,可選單篇或多篇進行問答,可準確定位至相應內容,并 總結回復、能幫助用戶對于國內藥品技術指導原則中較為專業復雜的試驗設計進行 分析總結。
2.2 臨床試驗中心篩選
臨床試驗中心的篩選是為了評估其在臨床試驗方面的資質、專業性、合作意愿和 經驗等方面,以確保在該中心開展的臨床試驗具有可靠性和有效性。這一步驟對 于臨床試驗的成功開展至關重要。通過進行可行性研究,可以為項目組提供在該 中心開展研究的依據,并提前預判可能會遇到的問題。因此,臨床試驗中心的篩 選和評定是臨床試驗開展前必不可少的重要環節。生物醫藥大健康行業在臨床試 驗中心篩選方面存在許多挑戰和痛點,其中,信息不對稱是一個顯著問題,醫藥 企業需要了解每個臨床試驗中心的實力、經驗、設備和人員等方面的信息,但這 些信息并不總是公開或易于獲取。同時,時間成本高和風險控制難度大也是臨床 試驗中心篩選的挑戰,醫藥企業需要花費大量時間和精力去篩選臨床試驗中心, 如若選擇不合適的臨床試驗中心可能會導致試驗失敗或者延期,增加項目的風險 和成本。 Acorn AI 的 Intelligent Trials 解決方案基于 20000 項臨床試驗的行業領先數據,提 供分析平臺,以提高試驗的速度、成功率和質量。Intelligent Trials 解決方案助力 優化試驗設計,選擇最優的國家/地區與研究中心,并在啟動后確保試驗表現良 好。GenAI可以利用數據分析、智能決策支持和預測分析等技術手段,為臨床試 驗中心的篩選提供全面支持和優化。
3.上市及商業化
學術推廣
醫藥企業在營銷推廣方面目前存在著幾大痛點。首先,“醫藥分離”背景下, 藥品進院及推廣都對銷售團隊以及經銷商人員的專業能力提出了更高的要求, 醫學營銷推廣需要處理大量的臨床研究數據,這些數據往往非常復雜,需要花 費大量的時間和精力進行分析和提取。其次,醫學營銷推廣需要對不同市場的 文 化、語言、習慣等進行深入了解。此外,醫學營銷推廣還需要考慮隱私和合 規性等問題,確保推廣活動的合法性和合規性。 首先,在醫藥企業的銷售端,GenAI能幫助企業內部的醫藥代表和MSL,優化工 作效率,降低人工成本,從而在整體上賦能銷售增長。柯基數據針對銷售端主 要面臨的內容合規審核慢、以及SOP流程類問題多的痛點,為德國MNC藥企市 場部門打造了面向銷售端的學術推廣智能助手。智能助手統一構建和維護銷售 端知識庫,覆蓋臨床產品、醫學和SOP流程指引類知識,并與十多個銷售端業務 系統打通,以接口形式實時更新知識庫;通過基于知識圖譜和大模型GraphRAG 的技術實現醫學素材段落原文問答與溯源,確保學術推廣的合規性。在企業微 信中,以對話機器人的形式,自動回復代表90%的問題,10%無法解答的以企 業 郵件的形式與各平臺負責人對接并當日及時回復。通過GenAI工具,以10篇最新 文章為例,升級前需要2個月的上線時間,以最新的解決方案,可實時更新發布 上線。降低了人工成本80%,提升上線效率90%以上,且由于智能性大大提 升, 吸引醫藥代表和MSL使用并提升整體銷售端的使用活躍度60%以上。
其次,GenAI在醫生端,由于醫生面臨著醫學學術資料數量多,更新快,無法快 速有效學習以提升診療和科研能力等相關問題。醫藥企業需要為醫生端提供更 加智 能的學術推廣應用。目前,GenAI能夠充分利用大量的醫學學術會議內 容、訓練數據、知識圖譜和專家經驗,快速準確地回答最新的醫學臨床研究問 題并做總結。美國醫藥咨詢公司 ZoomRx推出了基于GenAI技術的應用程序 Ferma GPT。Ferma.AI是ZoomRx開發的一個LLM,它利用了全面的生命科學數 據集、精心設計的知識圖譜、制藥業專用的訓練模型以及專業的人類智能和監 督。這 種方法使Ferma.AI能夠適應 制藥業的具體需求,其處理和理解復雜的醫 學和科學語言的獨特能力使其有別于傳統模型。Ferma.AI可以通過提供快速、準 確的 信息,使繁瑣的任務自動化。FermaGPT的AACR應用程序可以梳理所有 8230份提交的摘要和研究,以滿足特定的請求,如識別NSCLC中的新型KRAS摘 要或總結圍繞前列腺癌種族差異的關鍵討論。除了人工智能生成的一兩段回答 用戶的 問題外,FermaGPT還能夠列出原始材料和鏈接。ZoomRx在2023年4月14 日至 19日舉行的美國癌癥研究協會(AACR)年會推出其生成性人工智能產品 的公開版本,專門用于醫學會議。2024年,ZoomRx計劃在數據和信息發布后繼 續添 加。ZoomRx計劃今年為大多數大型醫學會議以及許多小型會議創建 FermaGPT公共訪問應用程序,包括AAN、ASCO、ESMO、SABCS和ASH。
患者教育
患者教育是指醫療專業人員向患者及其家屬提供有關疾病、治療和預防的信息和 指導。它旨在增加患者對自身健康狀況的了解,提高其自我管理疾病的能力,并 促進良好的健康結果。在患者教育方面,由于醫學領域涉及大量的專業術語和復 雜的概念,這對患者來說可能難以理解。醫生需要確保以簡明扼要的方式傳達信 息,避免使用過于專業化的術語,以便患者能夠理解和應用。 目前,GenAI可以針對不同市場的本土化特點,以及通過對目前患者的特點,針 對性地生成和構建患教內容,例如圖像、內容、數字廣告和宣傳材料。美國的人 工智能工程公司Fractal Analytics提供Avalok GenAI解決方案,可以幫助營銷人員 創建營銷內容、分析競爭情報,并通過個性化答案增強客戶體驗,同時確保隱 私和合規性。
醫蝶谷是阿里健康旗下的一款醫生個人診所云平臺,專為醫生打造,旨在提供便 捷、高效、可信的操作平臺,以便于為患者提供優質的醫療服務。醫蝶谷的 GenAI能力可以幫助醫生制作科普視頻,常規錄制一個科普視頻可能需要幾十分 鐘,甚至更長。當醫生擁有一個數字人模型后,醫生無需多次拍攝,只需提交腳 本后會自動生成視頻。 另外,GenAI可以輔助醫藥企業搭建面向患者的健康管理用藥助手,提供藥品說 明書相關信息、在線和線下購藥渠道咨詢等智能問答,及時解決患者遇到的相關 問題。同時,GenAI還可以提供慢病智能護理與營養健康知識圖譜智能推薦等, 幫助患者更高效的獲得疾病及藥品、營養等相關的知識內容,提高自我健康管理 的能力。