阿里发布可解释性模块Qwen

科技前沿 • 2026-05-01 08:47 • 阅读 21

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

据千问大模型消息，今日发布大模型可解释性分析模块Qwen-Scope。该模块基于Qwen3及Qwen3.5系列模型训练，通过插入并训练稀疏自编码器，提取出高度解耦、低冗余且更具可解释性的隐藏空间特征。Qwen-Scope不仅能分析模型行为的内在机制，还具备优化模型性能的巨大潜力，应用场景覆盖推理结果定向控制、数据分类与合成、模型训练优化及评估样本分析等多个方面。

Qwen-Scope的核心亮点体现在四个关键环节：

在推理方面，无需显式给出自然语言指令，即可实现对推理结果的定向控制，例如对输出语言、实体或风格进行定向修改。

在数据方面，仅需少量种子数据便可收集用于数据分类的特征，显著降低对大规模标注数据的依赖；同时可利用未激活特征信息定向构造数据，以补足模型的长尾能力，使训练数据能效比提升至约15倍。

在训练方面，通过分析语言混用、重复生成等问题并定位异常激活特征，可在监督微调和强化学习阶段辅助模型训练，降低此类错误回复的出现频率。

在评估方面，通过计算不同样本或评测集间的特征激活模式，可联合判断评测冗余程度，从而指导挑选评测集、提升评测能力覆盖度并降低评测成本。

本次开源的Qwen-Scope权重覆盖了Qwen3及Qwen3.5系列的7个大模型，包括稠密模型和混合专家模型，共包含14组稀疏自编码器权重。为保障特征分布广、语义含义强且训练稳定，其训练使用了从对应模型预训练数据中采样的0.5B词元数据。

目前，开发者可前往Hugging Face或魔搭平台体验Qwen-Scope，并查阅详细技术报告。

原文：（来源：千问大模型）

阿里发布可解释性模块Qwen

相关推荐