中华网数码

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机 培训 学校 课程
当前位置:滚动新闻>

英伟达200亿押错了?LPU只是过渡,3D-CIM™️才是终局

英伟达200亿押错了?LPU只是过渡,3D-CIM™️才是终局
2026-04-29 17:40:34 来源:中国焦点日报网

这两年消费电子圈,没点AI功能都不好意思开发布会。IDC最新Q1数据显示,全球AI手机出货占比已破45%,同比翻了两倍多,AI PC年底渗透率更是要冲60%。但剥开营销话术,真实的用户体验完全是冰火两重天。

你以为手机上的“端侧AI”是真本地跑大模型?十台里八台都是把你的提问传到云端算完再发回来,但是你的隐私就得全靠厂商“良心”,更躲不开未来的Token付费——现在免费是厂商烧钱抢市场,等野蛮期过去,一个月AI对话花的钱比话费还贵,是板上钉钉的事。

号称“真本地AI”的AI PC更尴尬。我同事刚买的新款联想AI PC,冲着长续航办公买的,结果开会用电池半天就没电,最后查到是后台AI Agent偷偷跑推理吃功耗,一关功能续航直接翻倍。现在能本地跑7B大模型的AI PC,一开AI功能功耗就拉满,所谓的移动生产力,最后还得插着电源用。

一边是云端的隐私焦虑和付费压力,一边是本地的功耗噩梦和续航崩盘,端侧AI始终卡在“鱼和熊掌不能兼得”的死局里,端边云全场景的AI推理,都困在“高性能+低功耗+低成本”的不可能三角里。就在全行业找答案的时候,英伟达甩出200亿美元全资收购Groq,一夜之间,全行业都在喊:GPU时代过去了,LPU才是AI推理的未来。

但LPU真的是终局吗?或者说,有没有一种技术,比LPU走得更彻底,能从根上破了这个不可能三角?

1. 英伟达200亿押注的LPU,到底解决了什么?又没解决什么?

先给大家打个最通俗的比方:大模型推理就像开餐馆炒菜,传统冯・诺依曼架构里,计算单元是灶台,存储单元是10公里外的食材仓库。炒一道菜,80%的时间和油钱都花在了来回跑腿上,灶台真正开火的时间连20%都不到——这就是GPU做推理最大的病根,天生适合批量炒菜的训练场景,面对一个字一个字蹦的串行推理,完全有劲使不出,还得为跑腿付出巨大的功耗和延迟代价。

Groq的LPU,就是把跑腿的问题优化到了极致。它靠超大片上SRAM把仓库搬到了厨房隔壁,用确定性数据流把食材运输路线焊成了专用高铁,再靠静态调度把炒菜时序提前排得明明白白,最终实现了比顶级GPU快几十倍的推理速度,功耗却只有几分之一,难怪英伟达愿意花200亿买单。

但很遗憾,LPU终究没跳出冯・诺依曼架构的框:仓库还是仓库,厨房还是厨房,计算和存储还是分开的,只是跑腿的路变短了而已。面对十几B、几十B的大模型,片上SRAM容量终究有限,大部分参数还是要放外部DRAM里,该跑的长途一趟没少,存储墙这堵墙,终究还是没砸开。包括三星的3D DRAM、HBM-PIM,本质也只是在仓库门口加了个小切配台,始终没解决“在仓库里直接炒菜”的核心问题。

2. 颠覆性的三维存算一体3D-CIM™️架构一家中国公司给出的答案

面对这个死局,杭州微纳核芯给出了不一样的答案:三维存算一体3D-CIM™️。

如果说LPU是把仓库搬到了厨房隔壁,那3D-CIM™️就是直接把灶台建在了仓库的每一层货架旁,伸手拿到食材转身就能炒,彻底把“数据搬运”这个动作从根上抹掉了。技术层面,它不是简单把存储和计算芯片摞在一起,而是通过三维键合技术,把SRAM存算一体计算内核和DRAM存储单元做了垂直堆叠融合,真正在存储器里完成AI计算,还能靠超大容量DRAM装下大模型的海量参数。

很多人问,这么厉害的技术,为什么英伟达、三星不抢着做?因为它要过三道地狱级的坎:架构设计要把计算和存储从根上揉在一起,没有任何成熟经验可参考;三维键合是半导体顶尖工艺,纳米级对准稍有不慎,一次流片就烧掉几千万;非冯・诺依曼架构的生态适配,更是难住了全球无数厂商。

也正因如此,3D-CIM™️长期停留在实验室概念里,而微纳核芯的团队,早在2018年就一头扎进了这条无人区。那时候ChatGPT还没影,大模型还没火,全行业都在盯着GPU和先进制程,没人觉得存算一体能成。这支从北大信息技术高等研究院走出来的团队,一扎就是7年,连续6年在芯片设计“奥林匹克”ISSCC上发表十余项破世界纪录的成果,还拿下了中国企业首个ISSCC最佳技术论文奖,2023年正式落地了全球首创的3D-CIM™️架构。。

3. 三维存算一体3D-CIM™️)的核心是什么为什么能成为大模型AI推理的终极方案?

全球巨头都没走通的路,微纳核芯凭什么做成了?答案很简单:他们不是单点技术突破,而是把从架构到落地的全链条彻底走通了,靠三根核心支柱,破解了行业的不可能三角。

第一根支柱,是SRAM存算一体核心架构,从根上破解了算力密度与能效瓶颈。直接在存储单元里完成计算,抹掉了数据搬运的功耗开销,不用依赖3nm、2nm先进制程,在成熟工艺上就能实现远超传统架构的能效比,同等算力下芯片面积只有GPU的1/2到1/3,用更便宜的工艺做出了更好的效果。

第二根支柱,是三维键合技术,彻底打通了大模型推理的带宽与容量任督二脉。大模型推理生成阶段,最大的瓶颈从来不是算力,而是带宽。三维堆叠让单芯片能承载数十GB参数,内核和DRAM的互连带宽提升数十倍,完美破解了带宽卡脖子问题,让大模型端侧本地流畅运行从理论变成了现实。

第三根支柱,是基于RISC-V的RV-CIM™异构融合架构,兼顾了AI计算完备性与全栈生态易用性。行业里绝大多数存算一体芯片,都要开发者重新学一套工具链,而微纳核芯自研的全栈软件工具链,能自动完成主流大模型到芯片指令的映射,开发者不用学任何新东西就能零门槛调用算力,彻底摆脱了对CUDA闭源生态的依赖。也正因这套体系,他们被工信部任命为RISC-V存算一体应用组组长单位,牵头制定全球首个RV-CIM™行业标准。

7年深耕,他们打通了从指令集到算法适配的全链条,布局了120余项核心专利,推出的两款核心芯片,不到4W功耗就能让7B大模型跑出150tokens/s的速度,不到2W功耗就能流畅运行3B大模型,完美解决了端侧AI的核心痛点,也拿下了国内头部存储厂商、终端龙头的深度合作,获得了红杉中国、小米、联想等顶级机构的投资认可。

结尾:换一条赛道,才能跑在前面

AI大模型的爆发,把全球半导体行业推到了全新的十字路口。摩尔定律逼近物理极限,靠制程堆算力的老路已经走不通,下一代AI芯片的竞争,核心早已变成了架构创新。

英伟达花200亿收购Groq,恰恰证明了传统GPU架构撑不起AI推理的未来,而微纳核芯的3D-CIM™️,比LPU走得更远、更彻底,是更接近终局的解决方案。

过去几十年,我们一直在海外巨头的体系里跟跑,而在存算一体这条新赛道上,中国企业已经跑在了前面。3D-CIM™️这条路才刚刚开始,但可以确定的是,端侧AI的普惠时代,一定会因为这项技术提前到来,而在这场后摩尔时代的算力革命里,一定会有中国公司,站在全球舞台的最中央。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

责任编辑:kj005

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com

关键词:

比5070 Ti要低20%左右?NVIDIA RTX 5070跑分成绩曝光

2025-02-27 09:44:12比5070 Ti要低20%左右?NVIDIA RTX 5070跑分成绩曝光

AMD 锐龙7 9700X 对决酷睿i7-14700K:畅玩电竞,新锐龙依旧锐不可挡!

2025-02-27 09:43:39AMD 锐龙7 9700X 对决酷睿i7-14700K:畅玩电竞,新锐龙依旧锐不可挡!

Intel® Amston Lake:边缘计算与网络通信的强劲引擎

2025-02-27 09:43:09Intel® Amston Lake:边缘计算与网络通信的强劲引擎

“我是被逼的” 黄仁勋表示:英伟达不能没有中国

2025-02-27 09:37:35“我是被逼的” 黄仁勋表示:英伟达不能没有中国

相关新闻