ripro优化(apriori优化)

ripro优化(apriori优化)p class f center p

大家好,我是讯享网,很高兴认识大家。




讯享网

 <p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1031%2F5ce58e71j00sm6wfd00wpd200u000grg00it00ah.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="34PKPLQ5">AI 大模型经常“一本正经地胡说八道”,这个问题 OpenAI 也头疼!现在,他们祭出了新武器—— SimpleQA,并已正式开源,这是一个全新的事实性基准测试,专门用来检测大模型回答事实性问题的准确性!OpenAI 的研究科学家 Jason Wei 表示,由于此前一直缺乏一个好的事实性基准测试,所以他们团队决定自己动手,创建一个简单、可靠、易用的评估工具,供所有 AI 研究人员使用</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1031%2F9e37a4f4j00sm6wfg0056d200u000ncg00id00ea.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p><strong>SimpleQA 究竟有何过人之处?总结起来有三大特点:</strong></p><p id="34PKPLQ7"><strong>设置简单到爆:</strong>包含 4000 道由人类编写、清晰无歧义的事实性问题,每个问题都只有一个无可争议的正确答案。模型的回答会被自动评分器评为“正确”、“错误”或“未尝试”</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1031%2Fb9j00sm6wfh00fnd200u000q7g00id00g1.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="34PKPLQ9"><strong>挑战性大,前沿模型也跪了:</strong>SimpleQA 对目前最先进的大模型也构成了巨大挑战!连 o1-preview 和 Claude Sonnet 3.5 的准确率都不到 50%!</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1031%2Fb26b8361j00sm6wfj00f5d200u000vkg00id00jb.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1031%2Fj00sm6wfk002qd200u000btg00id0078.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="34PKPLQC"><strong>参考答案准确度高,经得起时间考验:</strong>所有问题都经过精心设计,参考答案经过两位独立标注员的验证,确保准确可靠。而且,这些问题的设计也考虑到了时效性,即使 5 年或 10 年后,SimpleQA 仍然是一个有用的基准测试,相当耐用!</p><p><strong>SimpleQA是如何构建的?</strong></p><p id="34PKPLQD">OpenAI雇佣了AI训练师从网上收集问题和答案,并制定了严格的标准:答案必须唯一、准确、不会随时间变化,而且大多数问题必须能诱导GPT-4o或GPT-3.5产生“幻觉”。为了保证质量,还有第二位AI训练师独立回答每个问题,只有两位训练师答案一致的问题才会被收录。最后,还有第三位训练师对1000个随机问题进行验证,最终估算出数据集的固有错误率约为3%</p><p><strong>如何用SimpleQA比较大模型?</strong></p><p id="34PKPLQE">用一个经过prompt的ChatGPT分类器对模型的答案进行评分,分为“正确”、“错误”和“未尝试”三种。目标是尽可能多地正确回答问题,同时最小化错误答案的数量。测试结果显示,o1-preview效果**。小模型的正确率不如大模型,这可能是因为小模型的知识储备较少。o1-preview和o1-mini更倾向于选择“未尝试”,这可能是因为它们能够利用推理能力识别自己不知道答案的情况,而不是胡编乱造</p><p><strong>SimpleQA还能干啥?</strong></p><p id="34PKPLQF">除了评估事实性,SimpleQA还可以用来测量大模型的“校准”程度,也就是模型“知之为知之,不知为不知”的能力。</p><p id="34PKPLQG"><strong>置信度与准确率:</strong>通过让模型给出答案的同时给出置信度,然后比较置信度和实际准确率之间的关系,就能看出模型的校准程度。结果表明,模型普遍高估了自己的置信度,还有很大的改进空间。o1-preview比o1-mini校准程度更好,GPT-4比GPT-4-mini校准程度更好,这与之前的研究结果一致,即更大的模型校准程度更好</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1031%2F0ded0e6cj00sm6wfl008id200u000o6g00id00es.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="34PKPLQI"><strong>答案频率与准确率:</strong>另一种测量校准的方法是将同一个问题问模型100次。由于语言模型在重复尝试时可能会产生不同的答案,因此可以评估特定答案的出现频率与其正确性是否相符。更高的频率通常表明模型对答案更有信心。o1-preview 在这方面表现最好,其答案的频率与准确率基本一致。与通过置信度判断的校准结果类似,o1-preview 比 o1-mini 的校准程度更好,GPT-4 比 GPT-4-mini 的校准程度更好</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1031%2Fb8a7a81aj00sm6wfn00bid200u000obg00id00ev.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p><strong>限制</strong></p><p id="34PKPLQK">SimpleQA 是评估前沿模型事实性的一个简单但具有挑战性的基准。SimpleQA 的主要局限性在于其范围--虽然 SimpleQA 非常准确,但它只能在具有单一可验证答案的简短事实查询这一受限环境下测量事实性。提供符合事实的简短回答的能力是否与撰写包含大量事实的冗长回答的能力相关,这仍然是一个有待研究的问题</p><p id="34PKPLQL">开源地址:</p><p id="34PKPLQM">https://github.com/openai/simple-evals/</p><p id="34PKPLQN">参考:</p><p id="34PKPLQO">https://openai.com/index/introducing-simpleqa</p><p id="34PKPLQP">SimpleQA Paper:</p><p id="34PKPL">https://cdn.openai.com/papers/simpleqa.pdf</p><p id="34PKPLQV"><strong>⭐星标AI寒武纪,好内容不错过</strong>⭐</p><p id="34PKPLR0"><strong>用你的</strong><strong>赞</strong><strong>和</strong><strong>在看</strong><strong>告诉我~</strong></p> 

讯享网
小讯
上一篇 2025-05-27 16:24
下一篇 2025-04-27 12:04

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/185049.html