这项开创性研究探索了大型语言模型(LLM)在头颈CT血管造影(CTA)报告质量检测中的应用价值。科研团队从宣武医院采集10,000例头颈CTA影像报告(数据集1)及5,000例多中心报告(数据集2),系统性地识别出六类常见错误类型。
研究团队采用GPT-4、文心一言(ERNIE Bot)和讯飞星火(SparkDesk)三大先进模型进行错误检测,并创新性地引入5级Likert量表进行报告整体质量评估。通过Wilcoxon秩和检验与Friedman检验,科学比较了不同模型的错误检出率差异。在数据集2中,研究人员不仅对六类错误进行人工标注,还记录了人工评分与模型检测的时间消耗。
令人振奋的是,三大模型对六类错误的检测准确率均突破95%大关。其中GPT-4与人工评分的一致性达到中等水平(ICC=0.517),文心一言和讯飞星火也展现出可观的一致性(ICC分别为0.431和0.456,P<0.001)。更值得关注的是,模型评估100份放射学报告的速度显著超越人工评审。
这项研究证实,大型语言模型不仅能有效区分放射学报告质量差异,还可精准识别具体错误类型,为放射科报告质量控制的智能化转型提供了强有力的技术支撑。研究结果在提升质控效率、降低人工成本方面具有重要的临床应用价值,为人工智能辅助医疗质量管理的未来发展指明了方向。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/224359.html