据千问大模型消息,今日发布大模型可解释性分析模块Qwen-Scope。该模块基于Qwen3及Qwen3.5系列模型训练,通过插入并训练稀疏自编码器,提取出高度解耦、低冗余且更具可解释性的隐藏空间特征。Qwen-Scope不仅能分析模型行为的内在机制,还具备优化模型性能的巨大潜力,应用场景覆盖推理结果定向控制、数据分类与合成、模型训练优化及评估样本分析等多个方面。
Qwen-Scope的核心亮点体现在四个关键环节:
在推理方面,无需显式给出自然语言指令,即可实现对推理结果的定向控制,例如对输出语言、实体或风格进行定向修改。
在数据方面,仅需少量种子数据便可收集用于数据分类的特征,显著降低对大规模标注数据的依赖;同时可利用未激活特征信息定向构造数据,以补足模型的长尾能力,使训练数据能效比提升至约15倍。
在训练方面,通过分析语言混用、重复生成等问题并定位异常激活特征,可在监督微调和强化学习阶段辅助模型训练,降低此类错误回复的出现频率。
在评估方面,通过计算不同样本或评测集间的特征激活模式,可联合判断评测冗余程度,从而指导挑选评测集、提升评测能力覆盖度并降低评测成本。
本次开源的Qwen-Scope权重覆盖了Qwen3及Qwen3.5系列的7个大模型,包括稠密模型和混合专家模型,共包含14组稀疏自编码器权重。为保障特征分布广、语义含义强且训练稳定,其训练使用了从对应模型预训练数据中采样的0.5B词元数据。
目前,开发者可前往Hugging Face或魔搭平台体验Qwen-Scope,并查阅详细技术报告。
原文:(来源:千问大模型)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/283534.html