2026年AI.科技：OpenAI时隔六年发布开源权重模型gpt

科技前沿 • 2026-03-10 17:19 • 阅读 11

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

OpenAI时隔六年发布开源权重模型gpt-oss，解析其与GPT-2架构演进

8月5日，GPT-5发布前两天，OpenAI推出gpt-oss-120b与gpt-oss-20b两款开源权重大语言模型。这是其自2019年发布GPT-2后，近六年来首次开放模型权重，且依托优化技术，两款模型可在本地设备运行。

Sebastian Raschka博士在相关文章中，解析了从GPT-2到gpt-oss的架构演进。当前顶尖大模型多采用相似基础架构，性能提升多源于数据、算法调整及小幅优化，这与顶级实验室人才流动频繁、Transformer架构主导地位，以及架构大改收益有限有关。

具体架构变化有四：一是移除Dropout，因大模型用海量数据单轮训练，过拟合风险低，Dropout反而可能影响下游任务表现；二是用RoPE替代绝对位置编码，通过旋转向量标记位置，自2023年Meta Llama模型后广泛应用；三是激活函数趋向Swish，其计算成本略低于早期GPT用的GELU，但GELU未被完全弃用；四是前馈网络换为带门控的GLU变体（如SwiGLU），兼顾性能提升与参数量减少。

此外，博士还对比了gpt-oss与Qwen3，涵盖模型架构差异、MXFP4优化技术（实现单GPU部署gpt-oss）、模型宽度与深度的设计权衡、注意力机制细节（如偏置与池化），以及性能基准测试，并结合测试结果展望了与GPT-5的差距。#人工智能在未来能否广泛使用#

GPT plus 代充只需 145

2026年AI.科技：OpenAI时隔六年发布开源权重模型gpt

相关推荐