2025年智算时代下InfiniBand网络管理优化路径探索

智算时代下InfiniBand网络管理优化路径探索2023 年 10 月 11 日 由赛诺信致软件技术 北京 有限公司与 NVIDIA 联合主办的 科技赋能 算定乾坤 赛诺信致技术方案研讨会 在北京举行 蓝耘科技作为 GPU 算力云服务企业代表及 NVIDIA NPN 合作伙伴应邀出席 与 NVIDIA 技术专家们围绕 InfiniBand 网络助力智能算力 模型训练场景内网络性能调优 InfiniBand 网络管理

大家好,我是讯享网,很高兴认识大家。

2023年10月11日,由赛诺信致软件技术(北京)有限公司与NVIDIA联合主办的“科技赋能·算定乾坤—赛诺信致技术方案研讨会”在北京举行。蓝耘科技作为GPU算力云服务企业代表及NVIDIA NPN合作伙伴应邀出席,与NVIDIA技术专家们围绕InfiniBand网络助力智能算力、模型训练场景内网络性能调优、InfiniBand网络管理、AI网络架构等展开了深入探讨交流,分享行业前沿技术,共探未来发展趋势。


讯享网

蓝耘解决方案架构师杨超,发表了以“蓝耘智算中心使用UFM管理InfiniBand网络”为主题的演讲,就UFM应用实践、IB网络管理及优化探索等维度分享洞见。

智算中心作为赋能科技创新、助推产业转型升级的重要数据枢纽和应用载体,承载着大规模的数据存储和计算任务,不可预期的网络故障可能会造成计算任务的意外终止。AI竞速时代下,能够快速识别问题以实现智算中心的高效管理对于IT 运维人员和开发者而言显得尤为重要。

NVIDIA UFM(Unified Fabric Manager)作为一款用于管理InfiniBand环境的强大平台,能够助力运维人员对当前的IB网络进行更高效地调配、监控、管理、预防性故障排除及维护,同时提升应用程序的表现,确保链路在任何时间都是可运行的。本次分享中,杨超从UFM平台介绍、功能使用、应用实践几个维度向与会嘉宾分享阐释了蓝耘利用UFM平台对蓝耘智算中心IB环境进行管理优化的探索与实践。

在他看来,UFM为IB网络管理带来的极大便利,主要体现在其可见性和可观测性上,用户可以非常直观地观测到网络拓扑、网络连接方式及出现告警的设备等并通过图表以及性能数据掌握实时网络动态,实现对IB环境的定性、定量管理。

根据ITIC的研究,停机1小时所造成的成本通常在30万美元以上。杨超指出,蓝耘智算中心通过应用UFM Enterprise软件,帮助运维人员简化配置、实时监控InfiniBand网络,及时发现并解决网络中出现的问题,进一步提高了管理效率、降低运营成本,有效提升智算中心的服务能力,确保客户业务的连续性。

他表示,目前蓝耘智算中心IB环境中已经应用了UFM平台包括HA、分区、多子网管理、设备管理、网络检测在内的众多功能。通过其中的设备管理和网络检测功能帮助运维人员发现潜在的安全威胁并及时处理网络中出现的问题。作为蓝耘智算中心日常管理的黄金搭档,UFM正助力蓝耘智算中心向更加安全高效、稳定无故障的目标加速迈进。

作为专注于提供GPU算力解决方案与算力云服务的科技公司,蓝耘自2019年起积极布局算力云服务业务版图,着手GPU算力资源池构建,致力于为AI训练、推理、视觉特效和渲染及教科研等计算密集型场景用户,提供随时随地可获取的低本高效的GPU算力云服务,满足客户业务应用和GPU算力随需扩展的双重需求。

面对未来,蓝耘将继续秉承“链接产业上下游、释放算力价值”的企业使命,基于灵活的基础设施、丰富的GPU算力资源和技术运营经验积淀,依托智算中心“算力基座”,持续提升算力服务效能,为人工智能、教科研等高性能计算应用场景提速增效注入源源不断的强劲动能。

更多咨询,请查阅公众号:蓝耘

小讯
上一篇 2025-04-07 09:05
下一篇 2025-03-11 08:27

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/39032.html