华为,正式发布!计划于9月开源
更新时间:2025-08-12 18:13:51 浏览次数:

  8月12日,
据悉,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法实现存算深度协同,使长序列场景下TPS提升2至22倍,从而降低每个Token的推理成本。

  Token是AI模型中的基本数据单位。在训练过程中,AI大模型会学习标记Token之间的关系,从而执行推理并生成准确、相关的输出。

  数据显示,国外主流AI大模型的单用户输出速度已进入200 Tokens/s区间,而我国主流AI大模型的单用户输出速度普遍小于60 Tokens/s。

推荐图文

鄂ICP备2024040700号-2
武汉砺行体育文化传媒有限公司-版权所有
数据源自网络仅供参考