本文来自至顶网(ai.zhiding.cn),来源:The Register。
新研究通过DeepTumorVQA基准测试表明,尽管AI在基本识别和测量任务上有一定表现,但在复杂医学推理上仍远落后于临床要求,难以取代医生的诊断判断。
一项新研究显示,基于放射影像进行临床诊断的AI模型尚未成熟。
研究人员常认为放射学是AI有潜力革新的领域,因为视觉或多模态模型在识别图像方面表现出色。基于充分的训练,假设AI模型能够像医学专家一样准确读取X光片和计算机断层扫描(CT)图像。
为了验证这一假设,来自Johns Hopkins University、University of Bologna、Istanbul Medipol University和Italian Institute of Technology的研究人员认为,首先需要构建一个更好的基准测试来评估视觉语言模型。
作者Yixiong Chen,Wenjie Xiao,Pedro R.A.S.Bassi,Xinze Zhou,Sezgin Er,Ibrahim Ethem Hamamci,Zongwei Zhou和Alan Yuille在题为"Are Vision Language Models Ready for Clinical Diagnosis?A 3D Medical Benchmark for Tumor-centric Visual Question Answering"(视觉语言模型准备好用于临床诊断了吗?以肿瘤为中心的3D医学视觉问答基准)的预印本论文中解释了多个原因。
首先,大多数现有临床数据集规模较小且记录不够多样化,科学家们认为这是由于让专家标注数据所需的高成本和耗时所致。
其次,这些数据集通常依赖2D数据,这意味着AI有时无法从3D CT扫描中获得学习资源。
第三,用于自动评估机器学习模型的算法,如BLEU和ROUGE,在处理简短且基于事实的医学答案时表现不佳。
此外,现有数据集可能采用了私有和机构内部的数据,这些数据无法供后续研究使用。
因此,作者开发了DeepTumorVQA——一个专注于CT扫描中腹部肿瘤的诊断视觉问答(VQA)基准测试。
DeepTumorVQA基于来自17个公共数据集的9,262个CT体积(共3.7M切片)构建,并辅以395,000个专家级问题,涉及识别、测量、视觉推理和医学推理四个类别。
23位持证放射科医师花费六个月时间手动标注了患者肝脏、肾脏、胰腺和结肠上3D图像中显示的7,629个病灶,随后他们还共同核对标注以达成共识。病灶指的是扫描中显示的异常组织,诊断可以确定其是良性还是恶性。
依托这一基准数据,研究人员着手评估五个专为医疗设计的视觉模型:RadFM、M3D(其中一个基于Llama2,另一个基于Phi-3)、Merlin和CT-CHAT。
图表展示了DeepTumorVQA的问题(点击放大)。
作者从四个类别对这些模型进行了评估:器官和病灶体积测量的准确性;识别诸如病灶等特征的能力;基于视觉信息进行推理的能力(例如判断两只肾脏中哪只较大);以及医学推理(例如鉴别某一病灶是良性囊肿还是恶性肿瘤)。
符合Betteridge定律,作者对“视觉语言模型是否准备好进行临床诊断?”的回答是“不”。
在测量任务中,这些模型的表现明显优于随机猜测;尽管在计数任务中,当以多选题形式呈现时,它们表现优于自由回答形式。
而在识别任务中,模型表现则相对逊色。所有模型均能识别病灶、囊肿与肿瘤,成功率在65%到86%不等,但研究人员发现这些模型的回答未能捕捉到细微的视觉线索。
在视觉推理任务中,模型在多步推理上表现尚可,但在肾脏体积对比等任务上存在困难,研究人员归因于“双侧推理和精确定位的难度”。
被测试的模型在医学推理方面遇到的难题最多,研究人员指出这是因为此类任务要求整合训练数据中未曾涉及的信息。
作者总结道:“总体来看,虽然现代视觉语言模型在基础及识别密集型任务中展现出潜力,但其在实际诊断中的应用目前仍受限于弱视觉信号、不可靠的数值处理以及肤浅的推理链。”
AI可以在辅助角色上帮助临床医师,但尚不足以取代医学专家的判断。(R)