大的来了!中国直接掏出新芯片,算力超越顶级GPU千倍。10月15日消息,北京大学人工智能研究院孙仲研究员团队联合集成电路学院研究团队,成功研制出基于阻变存储器的高精度、可扩展模拟矩阵计算芯片。 该芯片在精度上首次达到可与数字计算媲美的水平,在求解大规模MIMO信号检测等关键任务时,计算吞吐量与能效比现有顶级GPU提升百倍至千倍,代表中国在算力架构上的一次跨时代突破。 要知道这芯片到底有多厉害就得先看看现在的算力困境,如今AI大模型训练、6G通信信号处理,都要解复杂的矩阵方程,而全球高端算力基本被美国英伟达垄断。 英伟达的GPU靠先进制程堆性能,确实能满足高端需求,但有两个绕不开的问题:一是速度和能耗的瓶颈,数据在存储和计算间来回传输,浪费大量资源;二是美国把它当成封锁工具,不断限制对华出口高性能型号,从A100到H100,层层加码,就是想卡住中国AI和高端制造的算力脖子。 早年间模拟计算曾是主流,它直接用物理定律做并行运算,天生速度快、耗电少。但它精度太低,处理复杂任务时误差大,还没法扩大规模,后来就被数字计算取代了。如何让模拟计算既准又能处理大任务,成了全球科学界的世纪难题,美国、欧洲的顶尖实验室都试过,始终没找到破解之道。 北大团队走了条融合创新的路,没在传统数字芯片的制程上跟跑。他们把新型信息器件、自己设计的电路和经典算法结合,造了个基于阻变存储器阵列的全模拟矩阵方程求解器。简单说就是先快速算出近似答案,再用特殊方法反复细化,还发明了块矩阵计算法,让多个芯片协同解决大问题,既提了精度又破了规模限制。 拿它和英伟达最顶级的GPU比,差距一下就显出来了。精度上,这款芯片能实现24位定点精度的矩阵求逆,16×16矩阵经过10次迭代,误差低到几乎可以忽略,这已经追上了数字计算的水平,而过去的模拟芯片根本做不到这么准。 性能上更惊人,求解32×32矩阵时,算力已经超过高端GPU的单核;问题变成128×128矩阵,吞吐量直接是顶级数字处理器的1000倍以上,英伟达GPU干一天的活,它一分钟就能做完。 更关键的是能耗,相同精度下,它的能效比传统处理器高100倍,要知道一个大型数据中心一年的电费就得上亿,这能省下的成本难以想象。 为此团队还做了实际应用测试,把它用到6G关键技术“大规模MIMO信号检测”上,仅用3次迭代,恢复的图像就和原始图像高度一致,误差率和32位数字计算效果一样,这意味着它能胜任未来通信里的实时信号处理需求。 其实这个突破不只是造了一款芯片,更是跳出了美国设定的赛道。美国一直想通过垄断先进制程和高端GPU,把中国锁在数字计算的框架里,而北大团队让被视作“老旧技术”的模拟计算重新焕发生机,直接开辟了新战场。 当前全球都在抢AI和6G的先机,算力是核心竞争力,这款芯片刚好能补得上这两个领域的算力缺口,而且它的制造不依赖最顶尖的光刻机,避开了美国在制程上的封锁,从根源上减少了对外部技术的依赖。 从更大背景看,这个成果正是对美国芯片封锁的有力回应。这种“换道超车”比在同一条赛道上追赶更有力量——美国封锁的是数字计算的高端产能,而中国直接在模拟计算领域实现突破,形成了新的算力优势。孙仲团队也透露,目前正在推进技术产业化,要尽快把实验室成果推向市场。 一旦实现量产,不仅能缓解AI、6G发展的算力瓶颈,还能让数据中心更节能,更重要的是,它会彻底打破美国在高端算力领域的垄断。这不止是一款芯片的突破,更是中国算力产业摆脱美国控制、走出自己道路的证明。 如今,全球科技竞争愈发激烈,中国在芯片领域的这一重大突破,无疑为我国在国际科技舞台上赢得了更多话语权。相信在不久的将来,随着这款芯片的广泛应用,中国的科技发展将迎来更加辉煌的篇章。而美国试图通过技术封锁遏制中国发展的企图,也将在这一次次的突破中彻底落空。 来源:光明网 【首次!突破世纪难题!我国成功研制出新型芯片】
台积电创始人张忠谋毫不客气地表示:“关键技术都在我们手中,若我们决定切断大陆芯片
【22评论】【15点赞】