參考消息網9月19日報道 據英國《經濟學人》周刊網站9月17日報道,醫學的精髓很大程度上在于通過詳細問診和身體檢查,判斷患者當前所患疾病。
而更具挑戰性卻同樣重要的任務,則是預測患者未來可能罹患的疾病。一款新人工智能模型的研發團隊聲稱,他們已實現這一目標。該研究成果發表在9月17日的英國《自然》雜志上。
這款名為Delphi-2M的模型尚未達到醫院部署標準,但其研發者希望,未來它能幫助醫生預測患者是否可能患上包括阿爾茨海默病、癌癥和心臟病在內的1000多種疾病,這些疾病每年都會影響數百萬人。除了幫助識別高風險患者,該模型還有望協助衛生部門為未來可能需要額外資金支持的疾病領域分配預算。
Delphi-2M由位于劍橋的歐洲分子生物學實驗室與位于海德堡的德國癌癥研究中心聯合研發。
其設計靈感源自大語言模型(LLM),例如,為ChatGPT提供技術支持的GPT-5,這類模型能生成流暢的文本內容。
大語言模型經過訓練,可以從互聯網上抓取的海量文本中發現規律,從而預測句子中最可能出現的下一個詞。Delphi-2M的研發團隊認為,如果向人工智能模型輸入大量人類健康數據,它也可能具備類似的預測能力。
從許多方面來看,現有大語言模型的架構已非常適合這項任務。
但關鍵的調整在于,需要教會模型理解患者人生中不同事件的間隔。
在書面文本當中,詞語是前后銜接的,而患者病史中的診斷記錄卻不是這樣。
例如,妊娠檢測呈陽性后出現的高血壓,需要根據兩者的間隔時間作出不同的解讀:如果間隔數周,可能影響妊娠;如果間隔數年,則需另作解讀。
研發團隊將大語言模型中的“詞序編碼模塊”替換為“年齡編碼模塊”,以此實現這一調整。
隨后,研發團隊借助英國生物樣本庫中40萬人的數據,對Delphi-2M進行訓練。該樣本庫被認為擁有全球最完整的人類生物數據集。
研發團隊向模型輸入了ICD-10編碼(這是醫生用于記錄官方認可診斷的國際醫學簡碼)的時間與序列,這些編碼涵蓋了英國生物樣本庫數據集中出現的1256種不同疾病。
在訓練完成后,研發團隊先借助樣本庫中剩余10萬人的數據對模型進行驗證,之后又借助丹麥健康記錄(以其長期跟蹤、內容詳盡著稱)進一步測試。
此次測試使用了1978年以來190萬丹麥人的數據,確保了樣本在多樣性與代表性方面均優于英國生物樣本庫。
為評估模型性能,研究人員測量了它的AUC(“曲線下面積”,指概率圖中的特定區域):AUC值為1代表預測完全準確,0.5則相當于隨機猜測。
在預測“距上一次診斷5年內可能出現的新疾病”時,Delphi-2M基于英國數據的平均AUC值為0.76,基于丹麥數據的AUC值略降至0.67。
對于“特定事件后常出現的事件”(如敗血癥后死亡),模型的預測準確率更高;而對于由隨機外部因素引發的事件(如感染病毒),預測難度則更大。
不出所料,隨著預測時間拉長,模型準確率也會略有下降:在預測10年后的疾病風險時,平均AUC值為0.7。
目前,該模型距實際應用仍有較長的路要走。
Delphi-2M首先需要經過更嚴格的試驗階段,讓臨床醫生有機會驗證它能否改善患者的治療結果,而這一過程可能需要數年。
此外,研發團隊已著手升級模型,使其能處理比“按時間排序的診斷列表”更復雜的數據。
由于英國生物樣本庫還包含醫學影像和基因組序列,如果將這些數據納入模型訓練,有可能進一步提高預測準確率。(編譯/劉白云)