OpenAI时隔六年发布开源权重模型gpt-oss,解析其与GPT-2架构演进
8月5日,GPT-5发布前两天,OpenAI推出gpt-oss-120b与gpt-oss-20b两款开源权重大语言模型。这是其自2019年发布GPT-2后,近六年来首次开放模型权重,且依托优化技术,两款模型可在本地设备运行。
Sebastian Raschka博士在相关文章中,解析了从GPT-2到gpt-oss的架构演进。当前顶尖大模型多采用相似基础架构,性能提升多源于数据、算法调整及小幅优化,这与顶级实验室人才流动频繁、Transformer架构主导地位,以及架构大改收益有限有关。
具体架构变化有四:一是移除Dropout,因大模型用海量数据单轮训练,过拟合风险低,Dropout反而可能影响下游任务表现;二是用RoPE替代绝对位置编码,通过旋转向量标记位置,自2023年Meta Llama模型后广泛应用;三是激活函数趋向Swish,其计算成本略低于早期GPT用的GELU,但GELU未被完全弃用;四是前馈网络换为带门控的GLU变体(如SwiGLU),兼顾性能提升与参数量减少。
此外,博士还对比了gpt-oss与Qwen3,涵盖模型架构差异、MXFP4优化技术(实现单GPU部署gpt-oss)、模型宽度与深度的设计权衡、注意力机制细节(如偏置与池化),以及性能基准测试,并结合测试结果展望了与GPT-5的差距。#人工智能在未来能否广泛使用#
8月5日,GPT-5发布前两天,OpenAI推出gpt-oss-120b与gpt-oss-20b两款开源权重大语言模型。这是其自2019年发布GPT-2后,近六年来首次开放模型权重,且依托优化技术,两款模型可在本地设备运行。
Sebastian Raschka博士在相关文章中,解析了从GPT-2到gpt-oss的架构演进。当前顶尖大模型多采用相似基础架构,性能提升多源于数据、算法调整及小幅优化,这与顶级实验室人才流动频繁、Transformer架构主导地位,以及架构大改收益有限有关。
具体架构变化有四:一是移除Dropout,因大模型用海量数据单轮训练,过拟合风险低,Dropout反而可能影响下游任务表现;二是用RoPE替代绝对位置编码,通过旋转向量标记位置,自2023年Meta Llama模型后广泛应用;三是激活函数趋向Swish,其计算成本略低于早期GPT用的GELU,但GELU未被完全弃用;四是前馈网络换为带门控的GLU变体(如SwiGLU),兼顾性能提升与参数量减少。
此外,博士还对比了gpt-oss与Qwen3,涵盖模型架构差异、MXFP4优化技术(实现单GPU部署gpt-oss)、模型宽度与深度的设计权衡、注意力机制细节(如偏置与池化),以及性能基准测试,并结合测试结果展望了与GPT-5的差距。#人工智能在未来能否广泛使用#
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/211492.html