人工智慧醫療臨床試驗,從循證醫學角度切入

本文概述了人工智慧在醫療行業的最新技術和熱門應用,著重對人工智慧技術的應用評估和監管進行了探討,並對人工智慧醫療健康産業的未來發展前景進行了展望。



 
本文作者梅婧,楊曉棟,李少春,來自IBM中國研究院。  
 

摘 要/Abstract/

人工智慧(artificial intelligence,AI)給醫療行業帶來了新的科研技術和新的應用場景,加速了醫學證據的挖掘,如利用人工智慧技術加速醫學影像識別、疾病風險預測、藥物發現、基因測序分析等。與此同時,基於人工智慧技術的應用(如軟體、系統、平臺等),也迫切需要有證可循、有據可依,逐步開展定量和定性評估,以實現合規監管。

本文概述了人工智慧在醫療行業的最新技術和熱門應用,著重對人工智慧技術的應用評估和監管進行了探討,並對人工智慧醫療健康産業的未來發展前景進行了展望。



1

人工智慧與醫療行業的結合



人工智慧(artificial intelligence,AI)一詞源於1956 年的達特茅斯會議[1]。隨後很快便與醫療行業結緣。1966 年,美國麻省理工學院(MIT)推出了最早的自然語言聊天機器人ELIZA,能夠模倣臨床治療中的心理醫生,與患者進行人機對話;1972 年,英國利茲大學研發的AAPHelp系統,能根據症狀推斷可能産生患者腹部劇痛的原因;1974 年,美國匹茲堡大學研發的INTERNIST-I 系統,主要用於輔助診斷內科複雜疾病;1976 年,美國斯坦福大學研發的MYCIN 系統,用於自動判斷患者所感染的細菌類別並提供相應的抗生素處方建議。


儘管20 世紀80 年代,AI 遭遇寒冬;但在進入21 世紀以後,隨著演算法、算力和大數據三要素齊聚,再次引爆AI 熱潮[2]。醫療作為最具挑戰的行業之一,正是AI技術和應用的制高點。從近幾年的文獻可以看出[3-5],幾乎每種疾病都有其結合AI技術和應用的文章發表,如常見的腫瘤、眼部疾病、皮膚疾病、糖尿病、腎病、心腦血管疾病、神經/ 精神相關疾病等。借助AI 加速挖掘這些醫學證據,主要來源於5 大類技術。


(1)電腦視覺(computer vision,CV)。卷積神經網路(convolutional neural network,CNN) 在AI 醫學影像方面有出色表現,如在糖尿病性視網膜病變的AI 篩查[6]、皮膚癌/ 黑素瘤的AI診斷[7]、肺部電子電腦斷層掃描(CT)圖像的AI 識別[8]、基於腦部磁共振成像(MRI)的阿爾茨海默病AI 分類[9] 等方面應用。值得一提的是,CV 是此次AI 熱潮中的“弄潮兒”,AI 醫學影像也被行業內人士認為是最有可能率先實現商業化的AI 醫療領域[2]


(2)自然語言處理(natural language processing,NLP)。如果説CV 是在近10年裏縱向發展了各種不同的CNN 架構(從2012 年新鮮出爐不到10 層的AlexNet[10]到2015 年高達152 層的ResNet[11]),那麼NLP 領域裏最大的創新在於橫向提出了一套完整的方案去解決各種各樣的NLP任務,特別是2018 年提出的BERT[12] 模型在11 個NLP 任務上刷新了紀錄,可以做出問答、情感分析、命名實體識別、文檔聚類等任務。這些NLP 技術的發展無疑對富含文本數據的電子病歷(如病歷主訴、出院小結)帶來了新的價值,通過對醫療文本的分析和理解,可以構建疾病模型,以及提供AI 診療建議。


(3)序列數據分析(sequential data analysis)。以患者為中心的醫療數據是對患者全生命週期的記錄,因此從時間維度建模患者數據,無論是長達多年的電子病歷或醫保記錄,還是數天內在重症監護室(ICU)裏的多維指標採集,都可以借助序列數據分析來構建複雜模型。特別是迴圈神經網路(recurrent neural network,RNN),通過學習前面時間步而預測下一步事件的概率,因此常被用於AI 風險預測,如對糖尿病患者的慢性腎病預測[13]、對再入院的預測[14] 等。此外,信號相關的流數據也是序列數據分析的對象,如分析心電圖(ECG)檢測心律失常及其分類[15],又如分析腦電圖(EEG)預測癲癇[16],以及通過可穿戴式設備獲取姿態、步態數據流來預測帕金森病嚴重程度[17] 等。


(4)圖神經網路(graph neural network,GNN)。2019 年GNN 在各種AI 大會上刷榜,由此可見GNN 技術在近2 年的熱度非常高。GNN 裏的“圖”,即為電腦科學“圖論”中稱為“圖”的數據結構,最簡單的形式化表示就是其由結點(node)和邊(edge)組成。在很多應用場景中,我們常常見到這樣的“圖”結構,如社交網路(人是結點而社交關係是邊)、電子購物(用戶和商品是結點而購買關係是邊)。聚焦醫療行業裏,AI 藥物研發正在擁抱GNN 新技術[18],如借助GNN 預測蛋白質- 蛋白質的相互作用、藥物- 藥物的相互作用,以及藥物- 靶標、藥物- 疾病、疾病- 蛋白質的相互作用,其中靶標是與某種疾病的發生和發展密切相關的生物分子(如蛋白質和核酸),對這種生物分子進行干預,能夠治愈或緩解與其相關的疾病。


(5)強化學習(reinforcement learning)。從2016 年阿爾法圍棋(AlphaGo)[19]以4 : 1 的比分戰勝人類職業棋手,到2017 年AlphaGo Zero[20] 不再需要學習人類的棋譜,而是通過自我對弈提高棋力,其背後的深度強化學習演算法備受業界關注。在醫療行業裏,強化學習常被用於求解治療方案的最佳策略[21],其中目標函數是最大化預後的短期或長期效果。此外,考慮到這類技術在棋類和遊戲類中應用效果明顯,而在醫療領域,更為接近的醫療場景當屬AI 醫護機器人。如機器人輔助手術[22](robotic-assisted surgery,RAS),通過感知環境狀態,學習外科醫生的動作和相應的獎賞函數,從而提供最優的策略,增強RAS 的魯棒性和適應性。


綜合上述AI 技術,在不同的落地場景中分別賦能AI 醫療重要的2P 角色(圖1):AI 醫學影像助力醫生、AI 診療賦能患者。同時,圍繞這2 個角色,深度挖掘2D 概念:AI 風險預測理解疾病、AI 藥物研發挖掘藥物。不難看出,現行相對成熟的AI 技術(如CV 和NLP)已經在不少應用場景中賦能予醫生和患者角色。而對於疾病和藥物,這些概念的研究本身就是亟待解決的科學論題,與之對應的AI 技術(序列數據分析和GNN)正分別在時間和空間上推出新演算法。





2

AI 醫療的監管問題



AI 無疑給醫療行業帶來了新技術、新應用,同時我們也逐漸意識到,AI 為醫療行業帶來了新問題、新挑戰。尤其是當我們把AI 在醫療行業的應用視為一種特殊的干預手段時,我們是否應該建立系統的方法來評價和監管這些干預手段呢?這些AI 醫療技術和應用是否安全(safe)、有效(efficacy & effectiveness) 並值得信任(trustful)呢?類比于藥物,AI 醫療自身需要連續、長期且嚴格的研究,以産生科學有效的證據,這些證據可隨時間推移在不同人群中被驗證。不同於藥物,AI 醫療更需要與用戶(包括但不限于醫生和患者)互動,成為用戶可理解、可信任的干預手段,通過將AI 醫療整合到現有的臨床環境裏,來收集和分析這些新證據。


本文首先通過循證醫學的證據金字塔來看現有AI 醫療技術和應用的循證等級;然後從臨床試驗品質管理規範角度,討論AI 醫療的臨床試驗在不同階段該如何設計和評估;最後解讀最新的用於規範AI 臨床試驗報告的兩大指南[《人工智慧干預試驗標準方案的推薦條目》(Standard Protocol Items:Recommendations for Interventional Trials-Artificial Intelligence,SPIRIT-AI[23] 和《人工智慧試驗報告統一標準》(Consolidated Standards of Reporting Trials-Artificial Intelligence,CONSORT-AI )[24]],也是首個AI 臨床試驗國際標準。


(一) 循證醫學證據等級



循證醫學(evidence-based medicine)的證據金字塔的證據等級是自下向上逐漸升高(圖2)。其基本思想是從最基礎的證據出發,不斷地驗證、推論、強化,最終積累出可以定性的證據為臨床所依循。從這個角度來審視AI 醫療技術和應用,我們不難發現很多機構推出的AI 與醫生同臺PK[25],其證據等級僅等同於專家經驗。這往往是以新聞發表方式公布於世,但是這些並不是嚴謹的臨床研究結果。





通過對醫學期刊的搜索發現,有數百篇病例報告均對AI 醫療技術和應用進行過專業的描述和分析,包括在多例病例中使用[26]。同時,這些病例報告也指出了AI 醫療技術和應用的缺點,如AI 模型在實際應用中往往達不到純實驗環境裏的高性能。考慮到AI 醫療技術和應用目前尚未大範圍使用,且鮮有回顧性病例對照研究結果。可以預見的是,我們將對某些特定疾病結局的改善,由果尋因來觀察並檢驗AI 的使用是否與之存在著統計學上的關聯。我們通過檢索和分析,驚喜地發現數十項前瞻性隊列研究[27],對於使用AI 的干預組和不使用AI 的對照組由因尋果,觀察驗證其是否在臨床結局上有差異。此外,有7 項隨機對照試驗[27] 正在開展,其中6 項來自中國。這些醫學證據逐步開始被系統評價[28],並進行薈萃分析[29]


當然,我們也意識到現在絕大部分證據聚焦在AI 醫學影像的技術和應用。但是,我們相信並期待著基於循證醫學的方法論AI 和醫療的結合,以及各種技術和應用均將得到定性與定量的證據,最終被納入臨床實踐指南。


(二) 臨床試驗各個階段



《藥物臨床試驗品質管理規範》(Good Clinical Practice, GCP[30] 指出:“臨床試驗,指以人體(患者或健康受試者)為對象的試驗,意在發現或驗證某種試驗藥物的臨床醫學、藥理學以及其他藥效學作用、不良反應,或者試驗藥物的吸收、分佈、代謝和排泄,以確定藥物的療效與安全性的系統性試驗”。藥物臨床試驗分為Ⅰ ~ Ⅳ期,其中Ⅰ ~ Ⅲ期是上市前的臨床研究,而Ⅳ期是上市後的臨床研究。此外,還有臨床前研究和早期發現、發明階段研究(表1)。相比藥物研發的各個階段,AI 醫療的研發大多還停留在演算法發現、發明和臨床前研究階段[31]。值得一提的是,AI 醫療大部分是數據驅動的學習演算法,所以需要重點關注數據的因素,不能只停留在機器深度學習的演算法層面指標(如AUC),需要更多地關注如實説明訓練時的數據品質問題(如數據缺失情況和數據異常情況等),以及訓練後的模型性能問題(如模型的可解釋性、偏差和漂移)。類比藥物説明書,一般包括以下內容:藥品名稱、成份、性狀、適應證或者功能主治、用法用量、不良反應、禁忌、注意事項、規格、有效期、批准文號和生産企業等。在可預見的未來,將有AI 醫療説明書,包含AI 技術應用的數據適用性、安全性、有效性這些重要科學評價和結論,用以指導臨床的正確使用。





此外,AI 醫療的目標是賦能用戶(其中用戶可以是醫生、患者、臨床研究者等),所以在複雜度高且響應度強的醫療行業,AI 醫療的技術和應用需要有專業的系統設計和量化評估。如網際網路公司常用A/B 測試對産品功能及內容的優化迭代,AI 醫療在評估用戶體驗和系統帶來的價值時,也可以借助這樣的方法,提高用戶滿意度。


(三) 臨床試驗指南規範



2020 年9 月《自然醫學》雜誌推出了一系列文章,包括1 篇社論(editorial)呼籲對於AI 的使用制訂臨床試驗指南[32],1 篇專家評論(comment)建議規範基於AI 的臨床試驗[27],以及2 篇共識聲明(consensus statement)介紹了兩大指南SPIRIT-AI[23] 和CONSORT-AI[24], 用以規範AI 醫療的臨床試驗設計和彙報。其中,SPIRIT-AI 是《干預試驗標準方案的推薦條目》(Standard Protocol Items:Recommendations for Interventional Trials,SPIRIT)對於AI 模組的擴展;CONSORTAI是《試驗報告統一標準》(Consolidated Standards of Reporting Trials, CONSORT)對於AI 模組的擴展。簡而言之,如果臨床干預涉及AI 技術和應用,那麼建議參考SPIRIT-AI,而相應的涉及統一標準建議參考CONSORT-AI。


具體而言,SPIRIT-AI 在現有的2013年版基礎上新增15 項,其中3 項是在原有清單上進行細化,另外12 項是在原有清單上進行擴展;CONSORT-AI 則在現有的2010 年版上新增14 項,這些新增項對於AI 干預的報告尤為重要。經比較後不難發現,CONSORT-AI 的14 項幾乎全在SPIRIT-AI 中,而SPIRIT-AI 僅多了1項對於AI 干預已有相關的臨床證據,需要在背景和原理章節中進行介紹和描述。本文對AI 新增項進行了解讀 [23-24](表2)。





AI 醫療的臨床試驗才剛剛起步,國內外産學研多方也在共同努力推進。除了科研機構引領並監管AI 醫療的臨床試驗,産品部門也需儘快落實這些指南新增項,以便在AI 醫療的臨床試驗過程中能更有效地進行數據收集、管理和分析。如IBM®Clinical Development[33] 提供的臨床試驗解決方案,正在探索及支援AI 醫療的臨床試驗。


3

展  望



2017 年國務院印發《新一代人工智慧發展規劃》,該規劃提出了2020 年、2025 年、2030 年的戰略目標,醫療作為其中一個重要的應用領域受到了極高的重視。在這短短3 年裏,人們已經驚喜地看到了很多AI 與醫療結合的試用和試點。2020 年,我們展望未來,産學研相結合,能夠更健康、更長遠地發展。讓AI 醫療在前進的道路上有望有證可循、有據可依。


第一作者簡介

 
梅婧,博士,IBM 中國研究院,高級研究員。專業方向:人工智慧醫療
楊曉棟,碩士,IBM Watson Health,業務拓展總監。專業方向:數字化時代的智慧醫療

通訊作者簡介

 
李少春,碩士,IBM Watson Health,大中華區總經理。專業方向:數字化時代的智慧醫療


      中國網是國務院新聞辦公室領導,中國外文出版發行事業局管理的國家重點新聞網站。本網通過10個語種11個文版,24小時對外發佈資訊,是中國進行國際傳播、資訊交流的重要窗口。

      凡本網註明“來源:中國網”的所有作品,均為中國網際網路新聞中心合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其他方式使用上述作品。

電話:0086-10-88828000

傳真:0086-10-88828231

媒體合作:0086-10-88828175

品牌活動合作:0086-10-88828063

廣告合作:0086-10-88825964