AI写病历能行么？JAMA实证：AI助手每8小时仅能省16分钟录入,但难消隐性加班,优化真实工作流才是正道

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

SeekEvidence·寻证导读

针对门诊文书负荷的干预评估，既往证据多局限于单中心或单一维度的观察。本研究初步界定了AI语音文书工具在门诊环境下的时间成本削减上限，并量化了该干预措施对医师系统操作负担的实际减免程度。核心数据客观呈现了局部效率提升与整体工作流优化之间的实际差距，为医疗机构评估新技术引入的真实效费比与管理决策提供了循证支撑。

加州大学旧金山分校（UCSF）Lisa S. Rotenstein团队于2026年4月1日在JAMA发表了一项涵盖美国5家大型学术医疗中心的纵向队列研究。该研究纳入8581名门诊医师，旨在通过严谨的平行对照，客观评估临床环境中引入AI文书助手后，在无其它系统性减负干预的前提下，其对医生系统总耗时、非工作时间负担(Work Outside Work, WOW)及门诊接诊量的实质性影响。

一分钟速读 (Quick Take)

研究人群：横跨美国5家大型医疗机构的8581名门诊医师，按是否接入AI辅助系统分为干预组（1809名）与对照组（6772名），覆盖内科、外科、全科及各层级医师。

研究方法：采用基于Callaway和Sant’Anna估计量的双重差分（DID）分析法，校正接诊量及时间固定效应，追踪干预前后的动态变化。

研究结果：每8小时门诊排班中，AI使用者纯文档记录时间显著减少16.0分钟，每周接诊量微增0.49人次；但反映“非规定时间工作负荷”的下班后系统耗时（WOW-8）未见实质性改善。

结果深度解析

本研究的核心价值在于利用DID模型滤除了门诊量波动的混杂偏倚，对AI干预的实际效应进行了量化评估。研究者通过拆分EHR耗时维度（总时间、纯记录时间、下班后时间）与亚组特征，揭示了该技术在不同专科中的获益差异。

图1：数据汇总与效应森林图直观展示了倾向性调整前后的指标落差。AI干预组在每8小时排班内的EHR总耗时（EHR-8）和纯文书记录耗时（DocTime-8）较对照组呈现显著的统计学离散与时间降幅，但在WOW-8指标上两条曲线基本重合。

逻辑推演上，研究明确指出：尽管AI为医生在门诊时段内缩减了部分记录时间，但总体EHR停留时间的降幅（13.4分钟）小于纯文书时间降幅（16.0分钟），且下班后工作量（WOW-8）的减少幅度仅为3.1分钟（95% CI, -6.8至0.5），未达到统计学显著差异。这在临床工作流中提示了显著的时间转移现象——利用AI节省下的病历书写时间，往往被填补到了处理患者留言、复核化验单或修正AI文本等其他隐性操作上。

图2（原文图3）：亚组DID森林图揭示了不同科室的获益差异。全科医生（Primary care）与高频AI使用者（使用率≥50%）是实现核心时间获益的关键亚组，其DocTime-8的降幅显著优于外科系统与低频使用者。

亚组获益差异：全科医生的文书时间缩减高达26.9分钟（95% CI, 22.1-31.7），高频AI使用者的文书时间缩短达27.3分钟（95% CI, 23.1-31.6）。在医疗服务产出与卫生经济学评估中，虽然单名医生每月因接诊量微增产生的边际营收约为 167.37 美元（95% CI：86.52 – 248.21 美元），约合人民币 1152 元（区间：595 – 1708 元），但鉴于该增量尚未覆盖AI系统的人均授权成本，机构采购决策应更多基于改善职业倦怠和提升医疗质量而非纯粹的直接财务报表收益。

表注：本表数据基于原文献中多变量普通最小二乘回归模型提取（校正门诊量与固定时间效应）。WOW-8指标降幅的95%置信区间包含零值（未达统计学显著），客观反映出非工作时间负荷对单一技术干预的抗性。

SeekEvidence·课题启发

本研究的证据空白在于评价终点局限于“操作时长”这个单一的时间指标。临床中，病历是医疗质控与医保支付的法律依据。AI是否会引入过度记录导致计费失真？单纯缩减屏幕交互耗时（Screen-time），是否真能改善医患沟通？这些证据空白也是各级医师开展转化研究的绝佳切入点。

研究方向1（基于真实世界数据的病历内涵质量评价）：建议直接利用既有电子病历（EMR）系统开展真实世界回顾性观察。选取单中心高频慢病门诊，对比AI辅助生成与人工录入病历在“病历内涵质量”上的差异。核心评价指标应聚焦于：关键阳性体征漏记率、病历质控扣分频次以及专科量表记录的完整性。引入倾向性评分匹配（PSM）严格配平两组患者的基线特征，并建议尽可能采用同期非暴露组对照（Concurrent Controls），以规避因医院质控标准跨期变动导致的历史偏倚。这种低成本、严控偏倚的策略，是一线临床医师产出高质量真实世界证据的有效路径。

研究方向2（工作流与时间经济学评价）：专科医疗组若旨在评估“AI直出模式”与“结构化模板+AI修正模式”在不同临床场景下的耗时差异，需摒弃脱离实际的大数据思维，建议采取以下两种具备高行政可操作性的落地路径：在通过伦理并取得医师知情同意前提下，与信息科联合定向调用系统底层时间戳（Log data）。必须设置降噪清洗规则（如剔除停留时长<10秒或>30分钟的离群值），以剥离临床复杂环境带来的数据失真。若无法获取底层接口，建议回归时间-动作研究（Time-Motion Study），由观察员现场精确记录医师“屏幕交互与复核时长”。

研究方向3（医疗合规与DRG/DIP支付安全性实证）：研究视野应扩展至“医疗合规与卫生经济学安全”。提取脱敏EHR文本与院内结算明细，建议依托院内现有电子病案（EMR）质控系统的内置规则库，并辅以开源自然语言处理（NLP）大模型，重点评估AI生成病历是否出现“模板化过度记录（Over-documentation）”，分析其对病案首页诊断编码准确率及DRG/DIP支付入组契合度的影响，规避医保核查风险。

总结

本项研究以严谨实证的数据视角，提示我们不应过度预期AI在短期内彻底消除案牍负担的能力。AI目前扮演了高效的“转录辅助”角色，但尚无法替代医师在信息复核、医患情感沟通及碎片化决策中的核心脑力劳动。

未来数字医疗的演进，真正的考验不再是语音识别的精准度，而是如何将AI无缝融入临床诊疗流，切实降低决策背后的隐性认知负荷。技术赋能的最终目的，不应止于系统操作时长的缩减，而在于让医师将视线从冰冷的屏幕移开，重新聚焦于患者的眼眸，回归‘叙事医学’与医患信任的本源。

关注我们，了解更多科研前沿进展！

参考资料：

[1]Rotenstein LS, Holmgren AJ, Thombley R, Sriram A, Dbouk RH, Jost M, Aizenberg D, MacDonald S, Kanaparthy N, Williams B, Hsiao A, Schwamm L, Murray S, Byron M, You JG, Centi AJ, Iannaccone C, Frits M, Landman AB, Singh K, Tai-Seale M, Cao J, Lawrence K, Mann D, Holland C, Blanchette B, Ehrenfeld J, Melnick ER, Bates DW, Adler-Milstein J, Mishuris RG. Changes in Clinician Time Expenditure and Visit Quantity With Adoption of Artificial Intelligence-Powered Scribes: A Multisite Study. JAMA. 2026 Apr 1:e. doi: 10.1001/jama.2026.2253

撰文 | Ralph

编辑 | Ralph

版权说明：梅斯智汇是梅斯医学旗下聚焦AI的智慧医学服务平台。梅斯医学（MedSci）是国内领先的医学科研与学术服务平台，致力于医疗质量的改进，为临床实践提供智慧、精准的决策支持，让医生与患者受益。欢迎个人转发至朋友圈，谢绝媒体或机构未经授权以任何形式转载至其他平台。

AI写病历能行么？JAMA实证：AI助手每8小时仅能省16分钟录入,但难消隐性加班,优化真实工作流才是正道

相关推荐