华为，正式发布！计划于9月开源

更新时间：2025-08-12 18:13:51 浏览次数：

　　8月12日，
据悉，UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动，同时融合多种稀疏注意力算法实现存算深度协同，使长序列场景下TPS提升2至22倍，从而降低每个Token的推理成本。

　　Token是AI模型中的基本数据单位。在训练过程中，AI大模型会学习标记Token之间的关系，从而执行推理并生成准确、相关的输出。

　　数据显示，国外主流AI大模型的单用户输出速度已进入200 Tokens/s区间，而我国主流AI大模型的单用户输出速度普遍小于60 Tokens/s。