Nat Med | 如何評估醫療AI設備:FDA批準分析的局限性和建議

越來越多地研究提出了醫療人工智能(néng)(AI)算法,用于評估和護理患者。但尚無現成(chéng)的最佳實踐來評估商業可用算法,以确保其可靠性和安全性。通往安全和強大的臨床人工智能(néng)的道(dào)路需要解決重要的監管問題。醫療設備的性能(néng)是否可以推廣到所有預期人群?人工智能(néng)普遍面(miàn)臨的缺點(對(duì)訓練數據的過(guò)度拟合、數據轉移的脆弱性和對(duì)未充分代表的患者亞組的偏見)是否得到充分量化和解決?

2021年4月05日由斯坦福大學(xué)James Zou研究組在Nature Medicine雜志上發(fā)表了一篇名爲How medical AI devices are evaluated: limitations and recommendations from an analysis of FDA approvals的評論文章。在本研究中創建了一個帶批注的FDA批準的醫療AI設備數據庫,并系統分析了這(zhè)些設備在批準前的評估方式。對(duì)氣胸分類裝置進(jìn)行了案例研究,發(fā)現僅在單個站點上評估深度學(xué)習模型(通常這(zhè)樣做)就(jiù)可以掩蓋模型的弱點,并導緻跨站點的性能(néng)下降。

undefined

越來越多地提出了醫療人工智能(néng)(AI)算法,用于評估和護理患者。在美國(guó),美國(guó)食品藥品監督管理局(FDA)負責批準商業銷售的醫療AI設備。FDA以摘要文件的形式發(fā)布已批準設備的公開(kāi)可用信息,該摘要文件通常包含有關設備描述,使用說(shuō)明和設備評估研究的性能(néng)數據的信息。FDA最近呼籲提高測試數據質量,提高與用戶之間的信任和透明度,監控算法性能(néng)和對(duì)預期人群的偏見,并讓臨床醫生參與測試,爲了了解這(zhè)些問題在實踐中得到解決的程度,創建了一個帶批注的FDA批準的醫療AI設備數據庫,并系統分析了這(zhè)些設備在批準前的評估方式。

我們彙總了2015年1月至2020年12月期間獲得FDA批準的所有醫療人工智能(néng)設備,提取了以下關于如何評估算法的信息:參與評估研究的患者人數;評估中使用的場地數量;測試數據是在設備部署時(shí)同時(shí)收集和評估(前瞻性)還(hái)是在設備部署前收集測試集(回顧性);以及是否報告了按疾病亞型或跨人口亞組的分層表現。此外,根據FDA提案4的指導方針將(jiāng)每個設備的風險等級從1到4(1和2表示低風險;3和4表示高風險)。總共,彙編了130個符合我們審查标準的經(jīng)批準的設備(如圖1)。

undefined

根據FDA的總結,幾乎所有的人工智能(néng)設備(130個中的126個)在提交時(shí)都(dōu)隻進(jìn)行了回顧性研究。未對(duì)54種(zhǒng)高危裝置進(jìn)行前瞻性研究評估。對(duì)于大多數設備,回顧性研究的測試數據是在評估前從臨床站點收集的,測量的終點不涉及臨床醫生在人工智能(néng)和不人工智能(néng)情況下的表現的并排比較。需要更多的前瞻性研究來全面(miàn)描述人工智能(néng)決策工具對(duì)臨床實踐的影響,這(zhè)一點很重要,因爲人機交互可能(néng)會(huì)從本質上偏離模型s的預期用途(如圖2)。

undefined

且通常不報告評估地點和樣品的數量,在分析的130台設備中,93台設備沒(méi)有公開(kāi)報道(dào)多場所評估作爲評估研究的一部分。報告的41台設備中,僅1個站點評價4台設備,僅2個站點評價8台設備。這(zhè)表明,相當一部分被批準的設備可能(néng)隻在少數幾個地點進(jìn)行了評估,而這(zhè)些地點往往具有有限的地理多樣性。多部位評估對(duì)于理解算法的偏倚和可靠性很重要,可以幫助計算所使用的設備、技術标準、圖像存儲格式、人口構成(chéng)和疾病患病率的變化。

了解一個模型的性能(néng)如何可以推廣到廣泛和多樣化的人群是至關重要的,研究者探索了AI模型如何在代表不同人群的多個臨床站點的患者身上進(jìn)行評估。已目前批準的4種(zhǒng)用于氣胸檢測的AI設備爲例,使用三個來自不同地區醫院患者的數據集(SHC,BIDMC,NIH),在三個區域的患者數據上訓練了三個獨立的深度學(xué)習模型,然後(hòu)評估來自其他兩(liǎng)個區域的測試集上的模型。每個模型以胸透圖像作爲輸入,并對(duì)氣胸進(jìn)行二元預測。結果總結顯示(如圖3),雖然位點内測試的AUC仍然很高(平均0.893),但性能(néng)顯著下降了平均0.072 AUC,在其他兩(liǎng)個位點評估時(shí)達到0.124 AUC。一些性能(néng)變化可能(néng)是由于跨位點的患者人口統計差異。

undefined

總而言之,本文通過(guò)總結目前FDA批準上市AI醫療設備的評估方式,發(fā)現了目前評估上市所存在的問題,對(duì)未來評估人工智能(néng)設備在多個臨床站點的性能(néng)對(duì)于确保算法在代表性人群中表現良好(hǎo)很重要。鼓勵前瞻性研究與标準護理相比較,可以降低有害過(guò)度拟合的風險,并更準确地捕捉真實的臨床結果。人工智能(néng)設備的上市後(hòu)監測也需要理解和測量在前瞻性、多中心試驗中未檢測到的非預期結果和偏差。

----------THE END----------
免責聲明:本文系轉載分享,文章觀點、内容、圖片及版權歸原作者所有,如涉及侵權請聯系删除!