本文作者包括明尼苏达大学的李世阳(共同第一作者),张子健(共同第一作者),Winson Chen,罗越波,洪明毅,丁才文。
现有的 LLM 自动化 CUDA 方法大多只能优化单个 Kernel,面对完整的端到端 GPU 程序(如整个 VisionTransformer 推理)往往束手无策。
本文中,StitchCUDA 提出了一个根本性的问题转向:从优化单个 Kernel,到生成完整的端到端 GPU 程序。通过多智能体协作框架与基于 Rubric Reward 的 Agentic RL,StitchCUDA 在 KernelBench Level 3 端到端任务上实现了90% 的成功率和 1.50× 的平均加速比,分别比多智能体基线高出 1.72× 和 RL 模型基线高出 2.73×。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/224482.html