英伟达200亿押错了？LPU只是过渡，3D-CIM™️才是终局

2026-04-29 17:40:34 来源：中国焦点日报网

小大

这两年消费电子圈，没点AI功能都不好意思开发布会。IDC最新Q1数据显示，全球AI手机出货占比已破45%，同比翻了两倍多，AI PC年底渗透率更是要冲60%。但剥开营销话术，真实的用户体验完全是冰火两重天。

你以为手机上的“端侧AI”是真本地跑大模型？十台里八台都是把你的提问传到云端算完再发回来，但是你的隐私就得全靠厂商“良心”，更躲不开未来的Token付费——现在免费是厂商烧钱抢市场，等野蛮期过去，一个月AI对话花的钱比话费还贵，是板上钉钉的事。

号称“真本地AI”的AI PC更尴尬。我同事刚买的新款联想AI PC，冲着长续航办公买的，结果开会用电池半天就没电，最后查到是后台AI Agent偷偷跑推理吃功耗，一关功能续航直接翻倍。现在能本地跑7B大模型的AI PC，一开AI功能功耗就拉满，所谓的移动生产力，最后还得插着电源用。

一边是云端的隐私焦虑和付费压力，一边是本地的功耗噩梦和续航崩盘，端侧AI始终卡在“鱼和熊掌不能兼得”的死局里，端边云全场景的AI推理，都困在“高性能+低功耗+低成本”的不可能三角里。就在全行业找答案的时候，英伟达甩出200亿美元全资收购Groq，一夜之间，全行业都在喊：GPU时代过去了，LPU才是AI推理的未来。

但LPU真的是终局吗？或者说，有没有一种技术，比LPU走得更彻底，能从根上破了这个不可能三角？

1. 英伟达200亿押注的LPU，到底解决了什么？又没解决什么？

先给大家打个最通俗的比方：大模型推理就像开餐馆炒菜，传统冯・诺依曼架构里，计算单元是灶台，存储单元是10公里外的食材仓库。炒一道菜，80%的时间和油钱都花在了来回跑腿上，灶台真正开火的时间连20%都不到——这就是GPU做推理最大的病根，天生适合批量炒菜的训练场景，面对一个字一个字蹦的串行推理，完全有劲使不出，还得为跑腿付出巨大的功耗和延迟代价。

Groq的LPU，就是把跑腿的问题优化到了极致。它靠超大片上SRAM把仓库搬到了厨房隔壁，用确定性数据流把食材运输路线焊成了专用高铁，再靠静态调度把炒菜时序提前排得明明白白，最终实现了比顶级GPU快几十倍的推理速度，功耗却只有几分之一，难怪英伟达愿意花200亿买单。

但很遗憾，LPU终究没跳出冯・诺依曼架构的框：仓库还是仓库，厨房还是厨房，计算和存储还是分开的，只是跑腿的路变短了而已。面对十几B、几十B的大模型，片上SRAM容量终究有限，大部分参数还是要放外部DRAM里，该跑的长途一趟没少，存储墙这堵墙，终究还是没砸开。包括三星的3D DRAM、HBM-PIM，本质也只是在仓库门口加了个小切配台，始终没解决“在仓库里直接炒菜”的核心问题。

2. 颠覆性的三维存算一体（3D-CIM™️）架构，一家中国公司给出的答案

面对这个死局，杭州微纳核芯给出了不一样的答案：三维存算一体3D-CIM™️。

如果说LPU是把仓库搬到了厨房隔壁，那3D-CIM™️就是直接把灶台建在了仓库的每一层货架旁，伸手拿到食材转身就能炒，彻底把“数据搬运”这个动作从根上抹掉了。技术层面，它不是简单把存储和计算芯片摞在一起，而是通过三维键合技术，把SRAM存算一体计算内核和DRAM存储单元做了垂直堆叠融合，真正在存储器里完成AI计算，还能靠超大容量DRAM装下大模型的海量参数。

很多人问，这么厉害的技术，为什么英伟达、三星不抢着做？因为它要过三道地狱级的坎：架构设计要把计算和存储从根上揉在一起，没有任何成熟经验可参考；三维键合是半导体顶尖工艺，纳米级对准稍有不慎，一次流片就烧掉几千万；非冯・诺依曼架构的生态适配，更是难住了全球无数厂商。

也正因如此，3D-CIM™️长期停留在实验室概念里，而微纳核芯的团队，早在2018年就一头扎进了这条无人区。那时候ChatGPT还没影，大模型还没火，全行业都在盯着GPU和先进制程，没人觉得存算一体能成。这支从北大信息技术高等研究院走出来的团队，一扎就是7年，连续6年在芯片设计“奥林匹克”ISSCC上发表十余项破世界纪录的成果，还拿下了中国企业首个ISSCC最佳技术论文奖，2023年正式落地了全球首创的3D-CIM™️架构。。

3. 三维存算一体（3D-CIM™️）的核心是什么？为什么能成为大模型AI推理的终极方案？

全球巨头都没走通的路，微纳核芯凭什么做成了？答案很简单：他们不是单点技术突破，而是把从架构到落地的全链条彻底走通了，靠三根核心支柱，破解了行业的不可能三角。

第一根支柱，是SRAM存算一体核心架构，从根上破解了算力密度与能效瓶颈。直接在存储单元里完成计算，抹掉了数据搬运的功耗开销，不用依赖3nm、2nm先进制程，在成熟工艺上就能实现远超传统架构的能效比，同等算力下芯片面积只有GPU的1/2到1/3，用更便宜的工艺做出了更好的效果。

第二根支柱，是三维键合技术，彻底打通了大模型推理的带宽与容量任督二脉。大模型推理生成阶段，最大的瓶颈从来不是算力，而是带宽。三维堆叠让单芯片能承载数十GB参数，内核和DRAM的互连带宽提升数十倍，完美破解了带宽卡脖子问题，让大模型端侧本地流畅运行从理论变成了现实。

第三根支柱，是基于RISC-V的RV-CIM™异构融合架构，兼顾了AI计算完备性与全栈生态易用性。行业里绝大多数存算一体芯片，都要开发者重新学一套工具链，而微纳核芯自研的全栈软件工具链，能自动完成主流大模型到芯片指令的映射，开发者不用学任何新东西就能零门槛调用算力，彻底摆脱了对CUDA闭源生态的依赖。也正因这套体系，他们被工信部任命为RISC-V存算一体应用组组长单位，牵头制定全球首个RV-CIM™行业标准。

7年深耕，他们打通了从指令集到算法适配的全链条，布局了120余项核心专利，推出的两款核心芯片，不到4W功耗就能让7B大模型跑出150tokens/s的速度，不到2W功耗就能流畅运行3B大模型，完美解决了端侧AI的核心痛点，也拿下了国内头部存储厂商、终端龙头的深度合作，获得了红杉中国、小米、联想等顶级机构的投资认可。

结尾：换一条赛道，才能跑在前面

AI大模型的爆发，把全球半导体行业推到了全新的十字路口。摩尔定律逼近物理极限，靠制程堆算力的老路已经走不通，下一代AI芯片的竞争，核心早已变成了架构创新。

英伟达花200亿收购Groq，恰恰证明了传统GPU架构撑不起AI推理的未来，而微纳核芯的3D-CIM™️，比LPU走得更远、更彻底，是更接近终局的解决方案。

过去几十年，我们一直在海外巨头的体系里跟跑，而在存算一体这条新赛道上，中国企业已经跑在了前面。3D-CIM™️这条路才刚刚开始，但可以确定的是，端侧AI的普惠时代，一定会因为这项技术提前到来，而在这场后摩尔时代的算力革命里，一定会有中国公司，站在全球舞台的最中央。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

主摄必须第一？1/1.28英寸超广角扛起均衡影像大旗

“国补”未能拯救的电视，DeepSeek能行吗？

华为或首发国产一英寸大底影像自研成厂商必由之路？

真我Neo7 SE评测：性能强更有长续航，重度游戏玩家新选择

中华网数码

英伟达200亿押错了？LPU只是过渡，3D-CIM™️才是终局

比5070 Ti要低20%左右？NVIDIA RTX 5070跑分成绩曝光

AMD 锐龙7 9700X 对决酷睿i7-14700K：畅玩电竞，新锐龙依旧锐不可挡！

Intel® Amston Lake：边缘计算与网络通信的强劲引擎

“我是被逼的” 黄仁勋表示：英伟达不能没有中国

相关新闻

从“题海战术”到“靶向学习”：AI如何重塑数学教育的效率逻辑