华为CMS上下文记忆存储亮相华为云INSPIRE，助力Token成本断崖式下降

2026-06-05 18:15:56 来源：今日热点网

小大

6月5日，在2026华为云INSPIRE创想者大会上，华为重磅发布AMS（Agentic记忆存储）解决方案。该方案基于CMS（Context Memory Storage）上下文记忆存储打造，采用NPU直通技术、KV Cache分层池化能力与全新盘级存储架构，彻底打破智能体的记忆瓶颈，助力智能体持续学习。

智能体商业化加速落地，长文本处理、多轮对话和跨天级长程任务已成常态。业界普遍认为，KV Cache（上下文缓存）作为大模型的核心“记忆力”，将直接决定智能体的能力上限。然而，传统AI算力架构正面临严峻的“内存墙”制约——日益膨胀的海量KV Cache若全部堆积在昂贵的显存（HBM）中，不仅容量难以承载，更会导致成本失控，让企业在算力投入与运营成本之间陷入两难。

技术突破：打通NPU直通，构建PB级共享记忆

华为本次发布的方案，基于NPU直通华为CMS存储硬件这一创新架构，成功在数据基础设施层打造出PB级的超大共享记忆空间。针对长程任务中吞吐量大、留存时间长的KV Cache，实现分层池化管理，可自动识别数据的冷热属性并实现高效流动，使推理的中的首Token时延（TTFT）降低至1/10。同时，该架构让外置的CMS存储大幅分担显存压力，让单节点服务并发量显著提升。

商业价值：重写推理成本逻辑，Token成本大幅降低

除了架构层面突破，这一方案更从根本上直接重塑了大模型推理的底层成本逻辑。传统模式下，显存容量有限，多轮对话的上下文往往需重复计算（Prefill阶段），导致大量算力浪费和高昂的Token计费。华为CMS提供的“大容量记忆库”，可实现KV Cache的跨节点高效复用，省去了绝大部分的重复算力。据悉，引入该方案后，Token成本有望降低90%。

从训练提速到推理普惠，华为CMS上下文记忆存储标志着AI DC（人工智能数据中心）数据基础设施的跨越式升级，扫清底层障碍，加速智能体走向产业化普惠。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

Omdia：2026Q1欧洲智能手机市场增长2%，平均售价创历史新高

消息称苹果升级iPhone防盗，解锁状态被抢会立刻锁机

三星开始向全球Galaxy S23系列手机推送One UI 8.5更新

5月新机大战再添一员！vivo S60系列官宣5月29日发布

中华网数码

华为CMS上下文记忆存储亮相华为云INSPIRE，助力Token成本断崖式下降

全球首款千分千帧！LG发布原生1000Hz FHD电竞显示器

比5070 Ti要低20%左右？NVIDIA RTX 5070跑分成绩曝光

AMD 锐龙7 9700X 对决酷睿i7-14700K：畅玩电竞，新锐龙依旧锐不可挡！

Intel® Amston Lake：边缘计算与网络通信的强劲引擎

相关资讯

人人享有眼健康学生近视防控眼健康指导站进驻民德小学！