香港大學指工程學院的研究團隊開發一種新人工智能演算方法(Reviewing Free-text Reports for Supervision),能夠從數十萬份X射線影像報告中自動獲取監督信號來訓練預測模型,大幅減省人力成本達90%,其預測的準確度更超越用全由人手標註的數據訓練人工智能醫學圖像診斷模型。
港大工程學院計算機科學系教授俞益洲指人工智能推動的醫學圖像診斷極具潛力,可以減輕醫學專家的工作量及提高診斷效率和準確性,包括節省診斷時間及檢測一些不易察覺的異常跡象。
據了解Reviewing Free-text Reports for Supervision利用人工智能直接從文本報告中學習X射線特徵表達。它與嚴重依賴人手標註的傳統方法相比可自動從文本報告中的每個詞獲取監督信號,用以訓練人工智能神經網絡精確解讀X射線影像。
俞益洲相信醫生撰寫的X射線影像報告中抽象而複雜的邏輯推理語句能夠為訓練X射線影像的視覺特徵提供足夠資訊。
此外,研究團隊利用公開數據庫37萬份X射線影像和文本報告作爲訓練模型的基礎,包含14種胸肺相關疾病包括肺不張、心臟肥大、胸腔積液、肺炎和氣胸等醫療診斷數據;團隊僅使用100張X射線影像便建立一個初步令人滿意的X射線影像識別模型,其預測準確度達83%。當使用的影像增加到1000張,模型之預測準確度達88.2%,超越用放射科醫生標註10000張X射線影像進行訓練的模型(87.6%)。而當訓練影像增加到10000張,模型準確度達到90.1%;預測模型準確度達85%以上已可作實際臨床診斷應用。
論文第一作者周洪宇指研究團隊利用Reviewing Free-text Reports for Supervision成功地將數據標註量降低90%,從而降低開發成本並同時提高數據處理量和速度、預測準確度也有提高,這為實現通用醫療人工智能邁出重要一步。
頂圖圖說:圖為港大工程學院計算機科學系教授俞益洲。
REFERS的工作流程:首先將第k個病例中包含的所有X射線影像送入X射線影像transformer模型中,之後將transformer模型輸出的不同角度的特徵通過一種注意力機制進行融合;上述學習過程通過影像報告生成和影像-報告配對這兩個任務進行約束。圖a,整體流程概覽。圖b,X射線影像transformer模型的網絡架構圖。圖c,多視角特徵融合的注意力機制。圖d,影像報告生成和影像-報告配對兩種任務的概覽。
在NIH ChestX-ray 數據集上,REFERS 在利用不同比例的專家標籤時的性能。當REFERS取得與Model Genesis和ImageNet預訓練接近的性能時,REFERS僅僅需要10%的專家標籤。圖中的三種方法都使用了基於transformer的相同網絡架構。