近日,人工智能初创企业月之暗面(Moonshot AI)的核心团队在Reddit上举行了一场AMA(Ask Me Anything)活动,引发了业界的广泛关注。此次活动围绕其最新发布的Kimi K2 Thinking模型展开,核心成员杨植麟、周昕宇和吴育昕悉数亮相,针对技术细节、效率、成本以及未来发展方向等问题进行了深入解答。
K2 Thinking:长推理链与INT4的秘密
Kimi K2 Thinking最大的亮点之一在于其在单次推理中实现的长推理时间和推理链。杨植麟解释称,这得益于其训练方式倾向于使用相对更多的推理令牌以获得**结果。同时,Turbo API的推出将进一步提升推理速度。此外,K2原生支持INT4类型,这在一定程度上加快了推理过程。周昕宇进一步指出,选择INT4是为了更好地兼容“非Blackwell GPU”,并利用现有的INT4推理marlin内核。吴育昕则透露,团队通过优化硬件利用率,充分发挥了H800 GPU的性能优势。 这种INT4量化技术,对于大模型的推理效率提升有着显著作用,尤其是在算力资源有限的情况下,能够有效降低部署成本。
成本、效率与未来架构:KDA的潜力
针对外界对K2 Thinking令牌使用过多的质疑,杨植麟坦承,当前版本中,团队更侧重于绝对性能而非令牌效率。未来,他们将尝试将效率纳入奖励机制,以促使模型学习简化思考过程。关于备受关注的训练成本问题,杨植麟回应称,460万美元并非官方数据,因为培训成本难以量化,其中很大一部分用于研究和实验。在谈及未来架构时,周昕宇透露了公司的新架构KDA(Kernel Attention Dual Architecture),该架构能让模型获得更高的基准测试分数,并带来更快的速度和更高的效率。杨植麟也补充道,与KDA相关的想法很可能会在K3模型中得到应用。 此次AMA活动,不仅揭示了K2 Thinking的技术细节,也展现了月之暗面在大模型领域的战略布局和技术实力。
对OpenAI的调侃与VL模型的展望
在AMA活动中,月之暗面团队也展现了其幽默的一面。在被问及K3模型何时推出时,杨植麟调侃称,肯定能在“萨姆价值万亿美元的数据中心建成之前”推出K3模型。对于“OpenAI为什么会烧掉这么多钱”的问题,周昕宇则表示“只有萨姆自己知道”。此外,对于视觉-语言模型(VL)的计划,杨植麟也给出了积极回应,表示“是的,我们正在努力。敬请期待!”
行业观察:大模型竞争的未来
月之暗面选择开源的策略,也预示着开源协同可能成为未来大模型发展的重要趋势。从K2 Thinking的长推理链到KDA架构的探索,月之暗面正不断追求技术突破,力求在人工智能领域占据一席之地。Kimi K2 Thinking的发布,以及团队对未来发展的规划,都为AI大模型领域的竞争格局增添了新的变数。 你认为,在算力、算法和数据之外,决定未来大模型竞争的关键因素会是什么?

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/220128.html