昇腾“数字化风洞”问世:让AI算力配置从经验驱动迈向模型驱动
更新时间:2025-06-11 19:02:41 浏览次数:

  大模型训推系统宛如一辆精密调校的赛车,即便搭载顶级引擎,如果油箱、变速箱与路况不匹配,仍会陷入“龟速”困局。华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合上,而传统“人拉肩扛”的优化方法在芯片特性的“三角矛盾”前束手无策。

  三大挑战:动态负载需求下的软硬件博弈在正式开展复杂AI模型的训推之前,可以先在虚拟环境的“数字化风洞”中“彩排”。比如研发一个新药筛选模型时,先通过模拟不同的参数、输入和资源分配方案,预测模型在真实场景的表现,就像电影导演用动画预演复杂镜头。这种“先模拟后实战”的方式,能提前发现计算系统的瓶颈点和逻辑漏洞,并提出相应优化手段,节省大量真实训推的时间和资源。

  面对昇腾芯片的异构特性,华为马尔科夫建模仿真团队构建昇腾“数字化风洞”,能够小时级预演万卡集群方案,通过昇腾亲和的性能加速与训推系统极致高可用,助力大模型运行“又快又稳”。

  基于仿真能力,通过

  
 

  Sim2Train训练仿真系统框架

  基于仿真能力,通过

  
 

  Sim2Infer推理仿真系统框架

  基于高可用仿真能力,通过

  
 

  Sim2Availability高可用仿真系统框架

  未来与展望

  随着新型应用快速变化,系统架构持续创新,未来算力基础设施的架构设计与优化空间持续激增,需要建模仿真方法支撑算力基础设施的持续演进。华为马尔科夫建模仿真团队将持续深化负载自动图化建模、多维架构耦合仿真等关键技术,在系统瓶颈分析、最优部署策略求解、架构设计空间探索、故障仿真快速排查、算力系统Benchmark构建等领域发力,助力华为昇腾集群高效平稳运行,推动国产算力基础设施建设与AI计算技术创新。

  文/罗成

推荐图文

鄂ICP备2024040700号-2
武汉砺行体育文化传媒有限公司-版权所有
数据源自网络仅供参考