8月12日, 据悉,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法实现存算深度协同,使长序列场景下TPS提升2至22倍,从而降低每个Token的推理成本。
Token是AI模型中的基本数据单位。在训练过程中,AI大模型会学习标记Token之间的关系,从而执行推理并生成准确、相关的输出。
数据显示,国外主流AI大模型的单用户输出速度已进入200 Tokens/s区间,而我国主流AI大模型的单用户输出速度普遍小于60 Tokens/s。