医生如何评估AI诊断?新研究揭示医疗AI信任的关键

发布时间:2026-04-15
发布部门:科技处

上海临床研究中心聚焦临床医学与人工智能的深度融合,致力于推动AI技术在真实医疗场景中的可信应用与转化落地。近期,中心姜畅、刘心雨、周文哲、李寒露医师与上海科技大学信息科学与技术学院李权课题组(交互智能与可视分析实验室ViSeer LAB)紧密合作,围绕医生对AI辅助诊断的信任评估开展研究,相关成果被人机交互领域最具影响力的国际会议ACM CHI 2026录用。


图1. 使用系统与大模型模拟的病人问诊,收集案例分析的诊断数据。


在医疗人工智能快速发展的背景下,大语言模型展现出辅助疾病诊断的巨大潜力。然而,其融入临床实践的核心障碍——医生是否真正信任AI的判断——仍未得到充分理解。针对这一关键问题,上海临床研究中心姜畅、刘心雨、周文哲、李寒露医师与李权课题组联合开展了深入研究。

该研究创新性地提出一套量化评估框架,将医生对AI的主观感知转化为可比较的“感知能力得分”,为构建更安全、可信的AI辅助诊断系统提供了关键依据。区别于传统依赖标准化医学题库准确率的评估方式,本研究紧密贴合真实临床决策的动态性与复杂性,完整涵盖从病史询问、证据整合到鉴别诊断与治疗规划的全流程。

研究采用两阶段交互式实验设计。首先,团队构建了9个涵盖不同专科的真实临床病例,由不同资历的医生与包括GPT、Gemini在内的6个主流大语言模型分别进行独立诊断分析。在此基础上,研究团队招募37名医生作为评估者,从诊断询问的逻辑连贯性、诊断结论的准确性与全面性、推理过程的严谨性、治疗原则的合理性与全面性、以及临床可接受性共7个核心维度,对所有分析报告进行盲评与排序。通过采用Bradley-Terry排序回归模型及累积链接混合模型等统计方法,研究者成功将多维评分综合为统一的“感知能力得分”,从而实现了对AI临床推理能力的量化度量。


图2.使用系统对不同的案例分析进行排序和具体维度的打分,收集用户感知的临床推理数据。


研究发现了几项关键洞察。其一,AI在标准化基准测试上的表现与医生的感知能力虽呈正相关,但达到一定阈值后呈现边际效益递减,表明仅追求基准高分不足以建立充分信任。其二,“临床可接受性”——即诊断与治疗方案在实际场景中的可行性、可操作性及风险意识——在所有维度中对医生整体评价的影响权重最高,这意味着即便诊断结论正确,若推理过程脱离临床实际,也难以获得医生认可。其三,传统评估体系过度聚焦“诊断结论准确性”,相对忽视了医生同样重视的“诊断询问逻辑性”“治疗原则全面性”等维度,暴露出与真实临床需求的脱节。其四,表现最佳的大语言模型在整体评估中稳定优于多数非专科医生,并与专科高年资医师表现相当,证实了其在辅助复杂临床推理方面的切实潜力。

该研究以“Do I Trust the AI?” Towards Trustworthy AI-Assisted Diagnosis: Understanding User Perception in LLM-Supported Reasoning”为题发表于ACM CHI 2026。ACM CHI 2026将于2026年4月13日至17日在西班牙巴塞罗那召开。

文章链接:

https://arxiv.org/abs/2601.19540