3月16日,月之暗面Kimi发布了一份技术报告,对大模型十年未变的核心结构残差连接进行了重新设计。新设计让每一层能够选择性地关注此前各层的输出,而不是统一求和。这一改进使48B模型的训练效率提升了1.25倍,被业界解读为下一代模型关键模块的预告。这项研究由月之暗面的三位联合创始人杨植麟、吴育昕和周昕宇带领数十名研究员完成。论文发布后,马斯克对其表示印象深刻,前OpenAI研究科学家Andrej Karpathy认为该研究真正践行了“Attention is All You Need”的理念,而推理之父、前OpenAI研究副总裁Jerry Tworek则认为这标志着深度学习2.0的到来。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/240178.html