华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
-
8月22日大满贯:男单4强对阵出炉,林诗栋对手强,王曼昱PK桥本青马课堂:马的脑袋在“说”什么?助你大杀四方!《战地6》B测最佳武器配件设置《inZOI》官宣2026年登陆PS5!Xbox移植计划评估中浦东举办上海城市业余联赛“火焰蓝杯”定向赛《幻兽帕鲁》惨遭严重抄袭!山寨版竟登陆Switch平台毛骗团队真人影游《极速营救》发售 Steam特别好评“运载千秋——新时代大运河重要考古成果展”开幕扩大文旅服务产业发展朋友圈!长宁区文旅行业党建联盟暨“虹桥文旅荟”成立DEA head shares how agents will 'embed' with DC police in Trump federal takeover
- ·【七月浅谈】生命的价值
- ·阿里和蚂蚁旗下22个品牌联合推出“橙意计划”
- ·赛场再现巅峰!2023新日电动车携手女超联赛共创新传奇!
- ·本轮强降雨过程已结束,广东结束防汛Ⅳ级应急响应
- ·2025精英童模超级联赛表演嘉宾邵宣瑜 荣获主题赛冠军
- ·康师傅上半年销售额降了11亿 饮料和方便面都在跌
- ·黑料视频通过去,明星集体破防!
- ·“乌方态度至关重要” 特朗普称正筹备俄乌首脑会晤
- ·全家人都喜欢吃的入味菜:啤酒酱烧鸡
- ·醉天鹅、驴肉煲 鲜香味浓百吃不厌
- ·AMD苏姿丰自曝:最烦被问与黄仁勋的关系!
- ·青海省水利厅副厅长王永祥接受审查调查
- ·写作方法:古今纵横选材
- ·“乌方态度至关重要” 特朗普称正筹备俄乌首脑会晤
- ·廖鼎昌名师推荐的泉州菜,动手做起来
- ·全民转职:驭龙师是最弱职业?