公众号记得加星标⭐️,第一时间看推送不会错过。
研究发现,人工智能(AI)基础设施竞争的最终结果取决于支撑它的软件生态系统,而非半导体性能。分析表明,英伟达的统治地位除了其卓越的图形处理器(GPU)硬件外,还得益于其近20年来积累的以CUDA为中心的软件栈所构建的结构性准入壁垒。
根据软件政策研究所(SPRi)11日发布的报告《软件在人工智能基础设施竞争中的结构性作用》,预计今年全球人工智能支出将达到2.5万亿美元。其中超过一半预计将集中在服务器、加速器和数据中心等基础设施上。尤其值得一提的是,英伟达在数据中心GPU市场保持着绝对领先地位,占据了约86%的市场份额。
报告指出,这种优势不能仅仅用芯片性能来解释。这是因为即使使用相同的H100 GPU,实际吞吐量也会因编译器、加速库和驱动程序的优化程度不同而相差三倍以上。这意味着人工智能基础设施的根本竞争力取决于“芯片上计算的执行效率”。
研究团队将人工智能基础设施分为五层:开发框架、编译器、加速库、驱动程序/运行时和硬件。他们分析发现,所有层都形成了一种锁定结构,针对特定硬件进行了优化,从开发人员用于设计人工智能模型的 PyTorch 或 JAX 等开发工具,到基于 XLA、TVM 和 TensorRT 的编译器(将这些模型转换为适用于各种半导体的可执行代码),再到提升计算速度的 cuDNN 和 cuBLAS 等加速软件,最后到最底层的驱动程序 。
该报告特别提出了三种机制:“性能依赖性”,即优化不对称导致最终收敛于特定芯片;“设计依赖性”,即软件选择决定硬件路径;以及“结构依赖性”,即封闭的驱动架构阻碍了物理替换。报告指出,由于针对其他芯片重写和验证已针对特定库和 CUDA 路径优化的大规模 AI 模型代码需要耗费大量人力和时间,因此硬件替换本身就相当于系统重建。此外,报告还解释说,随着这三个因素的叠加,切换成本呈指数级增长。
主要国家的战略也呈现出明显的差异。在美国,英伟达 通过“CUDA”生态系统同时建立了性能和结构上的依赖关系,而谷歌则通过垂直整合TPU(张量处理单元,其专为大规模人工智能训练而设计的半导体)、XLA和ZAX,建立了一条独立的架构依赖路径。 中国的华为也被认为通过整合其人工智能芯片“Ascend”、专用软件平台“CANN”和人工智能开发框架“MindSpore”的系统,构建了类似的国内生态系统。
国内神经网络处理单元(NPU)产业面临着机遇与挑战。报告指出,尽管韩国NPU生态系统已通过原生PyTorch支持和与虚拟大型语言模型(vLLM)的集成成功打入框架市场,但编译器和库层的性能差距以及缺乏可操作的参考资料,仍然是市场扩张的障碍。国内人工智能半导体企业也在努力降低对CUDA的依赖,集中精力开发专用编译器并优化大型语言模型(vLLM)推理软件。
业界认为,只有在总体拥有成本 (TCO) 方面展现出对英伟达的竞争优势,而不仅仅是芯片价格竞争力,云服务提供商和大型企业才能真正采用我们的产品。TCO 涵盖了能效、软件维护和开发人员再培训成本。该报告还将引入基于 TCO 的评估体系列为一项关键的政策任务。
因此,研究团队建议政策范式应从以芯片设计为中心的扶持转向扶持全栈软件,包括编译器、运行时环境和软件开发工具包(SDK)。尤其值得一提的是,应扩大参与OpenXLA和MLIR等全球开源标准项目的规模,以降低对CUDA的依赖,并建立基于公共人工智能数据中心的示范环境,这些都是亟待完成的任务。分析总结指出,随着不依赖于特定加速器厂商的多厂商标准生态系统(例如UXL基金会)的普及,国内企业必须积极参与全球软件标准竞争。
报告指出,“K-NPU 普及的瓶颈在于软件优化和运营生态系统的规模,而不是芯片本身”,并补充道,“我们必须通过利用公共人工智能数据中心进行大规模演示以及参与全球开源标准,来打破性能差距和缺乏参考的恶性循环。”
(来源:编译自zdnet)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4374内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/258416.html