中文大模型忠实性幻觉测评：标杆R1幻觉率21%，千问3达29%，豆包1.5仅4%

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 SuperCLUE-Faith是专门评估大语言模型在执行中文生成任务时应对忠实性幻觉的测试基准。测评任务包括文本摘要、阅读理解、多文本问答和对话补全。

# 榜单概览

# SuperCLUE-Faith中文忠实性幻觉测评总榜概览

# SuperCLUE-Faith中文忠实性幻觉测评总榜

# 各模型总幻觉率及四大任务幻觉率比较

# 国内非推理模型和推理模型幻觉率对比

# 测评背景

在之前的工作中，我们对大语言模型的事实性幻觉进行了测评，侧重于模型在中文简短事实问答场景下的准确性，以及其识别和判断事实性幻觉的能力，未涉及对大模型在生成创作任务中忠实性幻觉的评估。忠实性幻觉是指模型的生成内容与用户指令或其他输入的分歧，以及生成内容内部的一致性。

鉴于此，为了全方位地衡量大语言模型在中文生成任务上的的忠实性幻觉表现，我们设计了一个在中文领域的忠实性幻觉测评基准：SuperCLUE-Faith，该基准重点考察大语言模型在执行中文生成任务时的忠实性幻觉表现。本次中文忠实性幻觉测评选取了国内外共16个模型，除o3外，均为非联网版本，以下是详细的测评报告：

排行榜地址：www.SuperCLUEai.com

SuperCLUE-Faith测评摘要

测评要点1：模型间的幻觉表现差异明显，极差高达28.69%。

doubao-1.5-pro-32k以95.89%的准确率和仅4.11%的幻觉率位居榜首，在四个任务上均排名第一。紧随其后的是gemini-2.5-pro-pre-05-06、gemini-2.5-flash-pre-0417和ernie-4.5-turbo-32k，其幻觉率都在10%以内，排名最后的模型幻觉率高达32.80%。

测评要点2：推理模型的幻觉比非推理模型更显著

本次测评中推理模型的平均幻觉率为22.95%，非推理模型的平均幻觉率为13.52%，推理模型的幻觉率比非推理模型高出近9.43%，推理模型相对而言更易产生幻觉输出。

测评要点3：任务开放性越高，模型的幻觉越严重。

不同任务中模型幻觉率差异显著：文本摘要（8.72%）和多文本问答（10.14%）因需紧扣原文，相对而言幻觉率较低；而阅读理解（26.90%）和对话补全（33.61%）因需推理或自由生成，幻觉风险大幅增加。任务开放性与幻觉率呈现出一定的相关性。

#测评体系

SuperCLUE-Faith 是一个专注于评估大语言模型在中文领域忠实性幻觉表现的基准测试，该基准涵盖四大核心任务：文本摘要、阅读理解、多文本问答以及对话补全，通过多维度评测，为大语言模型的忠实性幻觉研究提供全面、客观的能力评估依据。

#测评任务

SuperCLUE-Faith基准四大核心评测任务的定义及评测重点如下：

1.文本摘要：考察模型根据原文生成准确、忠实摘要的能力。包括但不限于金融、科技、医学等类型。

2.阅读理解：考察模型对给定文本的理解程度和信息提取的准确性。包括但不限于新闻资讯、文学作品、研究报告等类型。

3.多文本问答：考察模型分辨和整合多个信息来源以回答问题的能力。包括但不限于历史评论、会议纪要、专业知识等类型。

4.对话补全：考察模型在不同对话情境下生成连贯、符合上下文的回复的能力。包括但不限于日常闲聊、职场生活、信息咨询等场景。

# 测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

（一）测评集构建

中文原生忠实性幻觉测评基准中文题库的构建流程如下：

1.参考现有提示词(Prompt)，撰写中文prompt--->

2.测试--->

3.基于测试结果优化完善中文prompt--->

4.系统化构建各维度专属评测集，形成完整测评题库。

（二）评分方法

本次SuperCLUE-Faith中文忠实性幻觉测评采用大模型三阶段自动化评估方法，以下是具体评估流程介绍：

a）语句分割阶段：以中文标点符号为边界，对模型输出答案进行分句处理；

b）幻觉判定阶段：基于任务特异性评价标准，对每个分句进行二元判定：无幻觉得1分；存在幻觉得0分；

c）分数聚合阶段：单题得分（范围0-1分） = 无幻觉句子数量 / 总句子数量；总分 = 单题得分之和 / 总题数。

该评估机制通过标准化计分流程，确保结果的公平性和客观性。

（三）人类一致性分析

对自动化测评结果进行评估，与人类评价的一致性对比，并报告一致性表现。

# 参评模型

# 测评结果

（1）幻觉率总榜和准确率总榜

（2）文本摘要榜单

# 人类一致性评估

为确保大模型自动化测评的严谨性与科学性，我们对裁判模型在中文忠实性幻觉测评任务中的可靠性进行了人类一致性评估，具体细节如下：

我们选取了四个模型，按照不同的任务类型进行分层抽样，共抽取84题进行人工评估，由人类按照相同的评价标准对这批题目进行评估，并将人类的评估结果与裁判模型的自动化评估结果进行对比。

最终我们得到了本次中文忠实性幻觉测评的人类一致性评估结果：

模型1：99.36%

模型2：91.43%

模型3：97.48%

模型4：94.42%

最终得到总体的平均合格率约为95.67%，表明本次自动化评价具有较高的可靠性。

# 示例对比

# 示例1 对话补全

题目：

参考答案：

模型回答比较：

doubao-1.5-pro-32k答案：得1分

hunyuan-turbos-latest答案：得0分

# 示例2：对话补全

题目：

参考答案：

模型回答比较：

DeepSeek-V3-0324答案：得1分

Qwen3-30B-A3B答案：得0分

# 示例3：多文本问答

题目：

不同模型回答比较：

ernie-4.5-turbo-32k答案：得0.8分

o4-mini(high)答案：得0.29分

# 示例4：阅读理解

题目：

不同模型回答比较：

gemini-2.5-flash-pre-0417答案：得0.88分

Qwen3-32B答案：得0.11分

# 测评分析及结论

1. 模型间的幻觉表现差异明显，极差高达28.69%。

doubao-1.5-pro-32k以高达95.89%的准确率和仅4.11%的幻觉率位居榜首，在四个任务上均排名第一。紧随其后的是gemini-2.5-pro-pre-05-06、gemini-2.5-flash-pre-0417和ernie-4.5-turbo-32k，它们的幻觉率都在10%以内，排名最后的模型幻觉率高达32.80%。

2. 推理模型的幻觉比非推理模型更显著。

本次测评中所有推理模型的平均幻觉率为22.95%，所有非推理模型的平均幻觉率为13.52%，推理模型的幻觉率比非推理模型高出近9.43%，表明推理模型可能更易产生幻觉输出。

国内推理模型的平均幻觉率为27.12%，国内非推理模型的幻觉率为13.01%，在推理模型中DeepSeek-R1和QwQ-32B均低于推理模型的幻觉平均线，在非推理模型中，doubao-1.5-pro-32k、ernie-4.5-turbo-32k和qwen-max-latest均低于非推理模型的幻觉平均线。

3. 任务开放性越高，模型的幻觉越严重。

不同任务的平均幻觉率存在显著差异。文本摘要和多文本问答的平均幻觉率相对较低，分别为8.72%和10.14%。这意味着在对现有文本进行提炼概括或基于给定文本回答问题时，模型更容易忠实于原文信息，从而减少了凭空捏造或产生不准确信息的可能性。

而阅读理解和对话补全的平均幻觉率则高出许多，分别为26.90%和33.61%。这可能与这些任务的性质有关，阅读理解有时需要模型进行更深层次的推理和理解原文隐含信息，这增加了出错导致幻觉的风险。而对话补全则更加开放和生成性强，模型需要在理解对话上下文的基础上进行连贯且符合逻辑的回复，这更容易引入不准确或编造的信息，从而产生幻觉。

# 测评邀请

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供API接口或大模型

5.获得测评报告

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。