华为亮相2025金融AI推理应用落地与发展论坛

焦点 2025-08-25 23:45:18 29375159

近日，亮相落地论坛2025金融AI推理应用落地与发展论坛在上海举行。金融中国银联执行副总裁涂晓军、推理华为数字金融军团CEO曹冲出席本次论坛并发表致辞。应用论坛上，发展华为公司副总裁、亮相落地论坛数据存储产品线总裁周跃峰博士发布AI推理创新技术——UCM推理记忆数据管理器，金融旨在推动AI推理体验升级，推理提升推理性价比，应用加速AI商业正循环。发展同时，亮相落地论坛华为携手中国银联率先在金融典型场景开展UCM技术试点应用，金融并联合发布智慧金融AI推理加速方案应用成果。推理

当前，应用人工智能已步入发展深水区，发展AI推理正成为下一个爆发式增长的关键阶段，推理体验和推理成本成为了衡量模型价值的黄金标尺。周跃峰在论坛上强调：“AI时代，模型训练、推理效率与体验的量纲都以Token数为表征，Token经济已经到来”。为保障流畅的推理体验，企业需持续加大算力投入，但如何在推理效率与成本之间找到最佳平衡点，成为了全行业亟待解决的重要课题。

为此，华为重磅推出UCM推理记忆数据管理器，包括对接不同引擎与算力的推理引擎插件（Connector）、支持多级KV Cache管理及加速算法的功能库（Accelerator）、高性能KV Cache存取适配器（Adapter）三大组件，通过推理框架、算力、存储三层协同，实现AI推理“更优体验、更低成本”：

更优的推理体验：依托UCM层级化自适应的全局前缀缓存技术，系统能直接调用KV缓存数据，避免重复计算，使首Token时延最大降低90%。同时，UCM将超长序列Cache分层卸载至外置专业存储，通过算法创新突破模型和资源限制，实现推理上下文窗口10倍级扩展，满足长文本处理需求。

更低的推理成本：UCM具备智能分级缓存能力，可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动；同时融合多种稀疏注意力算法，实现存算深度协同，使长序列场景下TPS（每秒处理token数）提升2-22倍，显著降低每Token推理成本，为企业减负增效。

在与中国银联的联合创新技术试点中，UCM的技术价值得到充分验证。在中国银联“客户之声”业务场景下，借助UCM技术及工程化手段，大模型推理速度提升125倍，仅需10秒即可精准识别客户高频问题，促进服务质量提升。未来，中国银联将依托国家人工智能应用中试基地，联合华为等生态伙伴共建“AI+金融”示范应用，推动技术成果从“实验室验证”走向“规模化应用”。

论坛现场，华为正式公布了UCM开源计划。UCM通过开放统一的南北向接口，可适配多类型推理引擎框架、算力及存储系统。今年9月，UCM将正式开源，后续逐步贡献给业界主流推理引擎社区，携手全产业共同推动AI推理生态的繁荣发展。

本文地址：http://m.vediqeducation.xyz/news/25f099893.html

评论列表

呼和浩特一体化污水处理设备回复

呼和浩特一体化污水处理设备-呼和浩特污水处理设备厂家、价格、报价、批发-青岛乐中标签：添加时间：2024-01-11 浏览次数:1
2025-08-25 21:46

我国社会融资规模增量创历史同期最高水平回复

ze: 14px; line-height: 28px;">《人民日报》 2024年02月20日第 08 版）本报北京2月19日电记者吴秋余）中国人民银行近日发布的数据显示，2024年1月，我
2025-08-25 21:17

长三角区域发展指数稳步提升回复

ze: 14px; line-height: 28px;">光明日报北京12月25日电记者董蓓）国家统计局25日发布长三角区域发展指数显示，以2015年为基期，2022年长三角区域发展指数为129.5
2025-08-25 21:09

2023年我国国际收支保持基本平衡回复

ze: 14px; line-height: 28px;">《人民日报》 2024年02月19日第 03 版）本报北京2月18日电记者葛孟超）国家外汇管理局18日公布了2023年四季度及全年国
2025-08-25 21:07