本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
全球首個全科醫療大模型正式發布:
由谷歌Research和DeepMind共同打造的多模態生成模型Med-PaLM M,懂臨床語言、懂影像,也懂基因組學。
(資料圖片)
在14項測試任務中,Med-PaLM M均接近或超過現有SOTA,前提是所有任務都使用一組相同的模型權重。
而在246份真實胸部X光片中,臨床醫生表示,在高達40.50%的病例中,Med-PaLM M生成的報告都要比專業放射科醫生的更受采納,這表明Med-PaLM M并非“紙上談兵”,用于臨床指日可待。
對此,谷歌也自己給出了評價:
這是通用醫學人工智能史上的一個里程碑。
所以,Med-PaLM M具體什么來頭?
全球首個全科醫療大模型來了在正式了解Med-PaLM M之前,我們先簡單介紹谷歌自建的多模態醫學測試基準MultiMedBench。
谷歌表示,在MultiMedBench之前,市面上缺乏這樣一個全面的多模態醫學基準。
該基準由12個開源數據集和14個單獨的任務組成,用于測量通用生物醫學AI執行各種臨床任務的能力。
其中12個數據集共包含了六種生物醫學數據模式(文本、放射學(CT、MRI和X光)、病理學、皮膚病學、乳房X光檢查和基因組學),14個任務則涵蓋五種類型(問題回答、報告生成和摘要、視覺問題回答、醫學圖像分類和基因組變體調用)。
Med-PaLM M就在上面進行了微調。
正如其名“M”代表多模態,Med-PaLM M相比之前谷歌發布的Med-PaLM、Med-PaLM-2等醫療大模型,是一個主打全科、通才的醫療AI,不僅能回答各種醫學問題,還能直接看片、懂基因組學。
它的基本架構是PaLM-E(多模態語言模型),并采用ViT預訓練模型作為視覺編碼器,具體實現了三種組合:
-PaLM 8B+ViT 4B(PaLM-E 12B)-PaLM 62B+ViT 22B (PaLM-E 84B)-PaLM 540B+ViT 22B (PaLM-E 562B)
通過MultiMedBench對PaLM-E模型進行微調,并將其與生物醫學領域對齊,Med-PaLM M得以誕生。以下是一些實現細節:
(1)數據集和預處理方面,將MultiMedBench中所有圖像大小調整為224×224×3,同時按需使用填充來保留原始縱橫比。
(2)由于谷歌的目標是訓練一個通用的生物醫學AI模型,使用統一的模型架構和模型參數,用多模式輸入執行多個任務。為此,他們為Med-PaLM M提供了特定于各種任務的指令以及一個純文本的“一次性示例”。
如下圖所示的胸部x光解讀和皮膚病變分類任務所示,這些指令有一種寫提示語的味道,以“你是一個很給力的放射科助理”開頭。
(3)訓練過程中,作者對PaLM-E進行了端到端的微調。在多模態任務中,圖像標記與文本標記交錯,以形成對PALM-E模型的多模式上下文輸入。對于所有微調任務,多模式上下文輸入最多包含1個圖像,然而Med-PaLM M能夠在推理過程中處理具有多個圖像的輸入。
14項任務接近or超SOTA,臨床戰勝40%放射科醫生性能評估階段,作者主要測試Med-PaLM M的“多面手”(即全科)能力、突發涌現能力以及放射學報告生成質量(與真實放射科醫生進行對比)。
結果顯示:
(1)與專業SOTA模型和無生物醫學領域微調的廣義模型(PaLM-E 84B)相比,Med-PaLM M在MultiMedBench上的所有任務、數據集和指標組合(共計14項)中,性能均基本接近SOTA或超過SOTA。
需要注意的是,該結果是在沒有任何特定任務定制的情況下使用相同的模型權重集實現的。
(2)在scale實驗中,三個不同規模的Med-PaLM M對各類任務的影響各不相同:粗略來看,對于純語言任務和需要調整的多模式任務來說,模型越大越好;但對圖像分類和胸部X光報告生成任務來說,84B的效果比562B表現反而更好一些。
(3)零樣本思維鏈推理能力涌現。Med-PaLM M可以通過胸部X射線圖像檢測沒有訓練過的結核病,與針對該類數據集進行專門優化過的SOTA結果相比,它的準確率已相差不大。
不過,它給出的具體報告還是存在具體錯誤,說明還有不足。
(4)放射性報告生成測試中,80B參數的Med-PaLM M平均有40.50%的報告比放射科醫生做的更好(被臨床醫生采納),而12B和562B,分別為34.05%和32.00%。
另外,遺漏和錯誤率測試顯示,Med-PaLM M 12B和84B模型平均每份報告的遺漏率最低,為0.12,其次是562B模型為0.13。這一結果與MIMIC-CXR上人類放射科醫生基線報告的相當。
多久能實用?作為人類首個全科醫學大模型,Med-PaLM M多久能投入實用,想必也是大家關心的問題。
雖然它被“自詡”為里程碑(主要是因為靠一組模型權重在各種生物醫學任務上接近或超過SOTA),但谷歌也指出目前還有不少局限性待解決。
比如缺乏高質量的測試基準。谷歌表示,這是迄今為止通用生物醫學人工智能發展的關鍵瓶頸,因為只有高質量的基準才能在很大程度上促進相關領域的發展。
而目前的MultiMedBench還存在單個數據集大小有限以及模式和任務多樣性有限(比如缺乏轉錄組學和蛋白質組學)等問題。
再比如,擴展(scale)多模態AI模型也具有挑戰性。
在語言領域,這一操作可以顯著提高性能和應急能力。然而,谷歌在Med-PaLM M上的初步實驗表明,由于醫學數據的稀缺性,這對于生物醫學任務領域的多模態廣義模型來說并沒有這么簡單。
作者介紹目前,谷歌僅發布了Med-PaLM M的論文。
它一共有兩位共同一作,其中一位叫Tao Tu。
他本科畢業于北理工(2010年),碩士畢業于清華大學,博士為美國哥倫比亞大學,專業都是醫學工程。目前已在谷歌擔任軟件工程師快兩年。
論文地址:https://arxiv.org/abs/2307.14334
關鍵詞:
版權與免責聲明:
1 本網注明“來源:×××”(非商業周刊網)的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。
2 在本網的新聞頁面或BBS上進行跟帖或發表言論者,文責自負。
3 相關信息并未經過本網站證實,不對您構成任何投資建議,據此操作,風險自擔。
4 如涉及作品內容、版權等其它問題,請在30日內同本網聯系。