华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
- ·2021中国新疆伊犁天马国际旅游节即将启幕
- ·房屋装修小户型的事项 房屋装修小户型的技巧
- ·贵州省2名县处级干部接受纪律审查和监察调查
- ·光荣特库摩出品正宗系列手游『三国志 霸道』 8/13直播消息预告 宣布最新强档内容 ~
- ·(经济观察)“药香入咖”或创新中国咖啡出海路
- ·南美“美人鱼”游进中国:梦想在水下绽放
- ·经典FPS《无人永生》开发者坦承 当年移植PS2主机版太失败
- ·国防部:赖清德之流无底线“跪美卖台”最终只能是羊入虎口
- ·赵全喜:用行动诠释“一诺千金”
- ·最古老黑洞已有133亿岁“高龄”
- ·水电装修公司如何施工 水电装修公司如何验收
- ·墙面硬包的价格介绍 墙面硬包材料类型
- ·2025精英童模超级联赛全球总决赛 小超模苏荷斩获网络人气冠军
- ·台青“邂逅”五台山:触摸千年文化脉动
- ·“宜昌大撤退”为何被称为中国实业的“敦刻尔克大撤退”?
- ·160平米装修半包预算 装修半包的事项