华为亮相2025金融AI推理应用落地与发展论坛

近日,亮相落地论坛2025金融AI推理应用落地与发展论坛在上海举行。金融中国银联执行副总裁涂晓军、推理华为数字金融军团CEO曹冲出席本次论坛并发表致辞。应用论坛上,发展华为公司副总裁、亮相落地论坛数据存储产品线总裁周跃峰博士发布AI推理创新技术——UCM推理记忆数据管理器,金融旨在推动AI推理体验升级,推理提升推理性价比,应用加速AI商业正循环。发展同时,亮相落地论坛华为携手中国银联率先在金融典型场景开展UCM技术试点应用,金融并联合发布智慧金融AI推理加速方案应用成果。推理
当前,应用人工智能已步入发展深水区,发展AI推理正成为下一个爆发式增长的关键阶段,推理体验和推理成本成为了衡量模型价值的黄金标尺。周跃峰在论坛上强调:“AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来”。为保障流畅的推理体验,企业需持续加大算力投入,但如何在推理效率与成本之间找到最佳平衡点,成为了全行业亟待解决的重要课题。
为此,华为重磅推出UCM推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”:
更优的推理体验:依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。同时,UCM将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口10倍级扩展,满足长文本处理需求。
更低的推理成本:UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动;同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本,为企业减负增效。
在与中国银联的联合创新技术试点中,UCM的技术价值得到充分验证。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进服务质量提升。未来,中国银联将依托国家人工智能应用中试基地,联合华为等生态伙伴共建“AI+金融”示范应用,推动技术成果从“实验室验证”走向“规模化应用”。
论坛现场,华为正式公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区,携手全产业共同推动AI推理生态的繁荣发展。
相关文章
- 大部分人都是因为比特币才知道了区块链,而大部分人知道比特币是因为它的价格涨得太太太快了,跟比特币价格的上涨速度一比,什么房价、茅台,任何的投资方式都变得不值一提了。比特币的价格在突破20000美元后开2025-08-27
- 前言:答:《军中绿花》是流行于军营中的一首歌曲,该曲朗朗上口,编曲较为民谣化,却透露着一种纯净的情怀,由歌手小曾创作并演唱,在军营中口口相传,颇为流行。另外军中绿花现在已经引申成为部队的女兵。歌曲词来2025-08-27
- 牛奶兑水给宝宝喝可以吗?你好!根据你的描述考虑牛奶可以兑水给孩子喝的,建议给孩子喝奶最好喝纯牛奶添加剂比核桃奶添加剂比较少纯牛奶可以加水吗?回答你的问题,纯牛奶可以加水,但是不建议你加的太多。如果纯牛2025-08-27
- 2014冬季奥运会男子花样滑冰金牌?是羽生结弦2014年2月,年仅19岁的羽生结弦夺得索契冬奥会金牌,成为亚洲首位冬奥会男子单人滑冠军。羽生结弦,1994年12月7日出生于日本宫城县仙台市,日本花样。2025-08-27
- 9月12是杨幂的生日,这天,她的好友Baby也为其庆生,但却因配图裁掉倪妮遭讽心机婊,同时,也在揣测Baby和倪妮的关系是不是一对假闺蜜,她们两人的关系是不是没有传说中的那样好?不然为什么要裁掉倪妮?2025-08-27
- 前言:舞字的部首是什么?舞的部首是夕。舞,wu,从无从舛,乐也。用足相背,(1)形声。从舛(chuǎn),两足相背。古舞字象人执牛尾而舞之形。本义:舞蹈。(2)同本义[dance]本意舞蹈,按一定的节2025-08-27
最新评论