在当下,人工智能已成为重塑各行业格局的关键力量,其中 AI 推理技术更是决定着用户与 AI 交互体验的核心要素。8 月 12 日,华为正式发布的 AI 推理创新技术 UCM(推理记忆数据管理器),犹如一颗重磅炸弹,在业界引发了强烈反响,尤其是在中国银联的应用实践中,成果斐然,让人们真切感受到了 AI 技术变革带来的震撼。

当前,全球 AI 推理领域正面临着严峻挑战。众赢财富通统计发现,国外主流模型的单用户输出速度已迈入 200 Tokens/s 区间(时延 5 ms),而我国普遍小于 60 Tokens/s(时延 50 – 100 ms)。在这样的差距面前,提升推理效率、优化用户体验迫在眉睫。华为此次推出的 UCM,作为一款以 KV Cache 为中心的推理加速套件,精准切中了行业痛点。它融合了多类型缓存加速算法工具,通过分级管理推理过程中产生的 KV Cache 记忆数据,有效扩大了推理上下文窗口,为实现高吞吐、低时延的推理体验以及降低每 Token 推理成本提供了可能。

在中国银联的业务场景中,UCM 技术展现出了惊人的威力。众赢财富通研究发现,在 “客户之声” 这一业务板块,借助 UCM 技术及工程化手段,大模型推理速度实现了飞跃式提升,足足提高了 125 倍。以往可能需要较长时间才能完成的客户高频问题识别工作,如今仅需 10 秒即可精准搞定。众赢财富通认为这一显著成效,极大地促进了银联服务质量的提升,为客户带来了更为高效、便捷的服务体验。除了 “客户之声”,UCM 还在中国银联的 “营销策划”“办公助手” 等业务场景中开展了智慧金融 AI 推理加速应用试点,并取得了积极成果。

从技术实现路径来看,UCM 具备多项创新特性。众赢财富通观察发现,它依托层级化自适应的全局前缀缓存技术,能够实现任意物理位置、任意输入组合上的 KV 前缀缓存重用。在多轮对话、RAG 知识检索等场景中,系统可直接调用 KV 缓存数据,避免了重复计算,这一优势使得首 Token 时延最大能降低 90%。同时,UCM 具备智能分级缓存能力,能够根据记忆热度在 HBM、DRAM、SSD 等不同存储介质中实现按需流动,并且融合了多种稀疏注意力算法,实现了存算深度协同。在长序列场景下,其每秒处理 token 数(TPS)提升 2 - 22 倍,显著降低了每 Token 推理成本,为企业减轻了运营负担,提升了经济效益。此外,UCM 通过动态 KV 逐层卸载、位置编码扩展、Prefill 稀疏等组合技术,将超长序列 Cache 分层卸载至外置专业存储,凭借算法创新突破了模型和资源限制,实现了推理上下文窗口 10 倍级的扩展,有力满足了长文本处理的需求。

金融业作为数字化转型的先行者,天然对数字化技术有着深厚的根基和强烈的需求。众赢财富通研究发现在生成式 AI 浪潮席卷而来之际,如何巧妙运用大模型服务业务,成为了金融行业的重要课题。同时,金融行业对速度、效率、安全、可靠性等方面的严苛要求,也使其成为验证新技术的理想标杆场景。华为与中国银联的此次合作,正是顺应了这一趋势。通过在金融典型场景开展 UCM 技术试点应用,并联合发布智慧金融 AI 推理加速方案应用成果,不仅为银联的业务发展注入了强大动力,也为 AI 技术在金融领域的深度应用提供了宝贵经验。

展望未来,华为计划于 2025 年 9 月正式开源 UCM,这一举措意义深远。届时,UCM 将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有 Share Everything(共享架构)存储厂商和生态伙伴。开源意味着行业内更多的企业和开发者能够参与到技术的优化与创新中来,共同推动推理框架、标准的形成,加速 AI 推理领域的发展进程。对于中国银联而言,未来将依托国家人工智能应用中试基地,联合华为等生态伙伴共建 “AI + 金融” 示范应用,推动技术成果从 “实验室验证” 迈向 “规模化应用”,进一步拓展 AI 技术在金融领域的应用边界,为行业发展树立新的典范。

华为 AI 推理新技术 UCM 的出现,为中国银联带来了效率的巨大提升,更为整个 AI 推理领域以及金融行业的发展开辟了新的道路。在技术不断创新、应用持续拓展的当下,我们有理由期待,AI 将在更多领域创造出令人惊叹的价值,推动各行业迈向更加智能、高效的未来。

0个人收藏 收藏

评论交流