GPU新品出现散热问题、大客户订单受影响,这些天的英伟达,大致并不好过。想要保住“算力霸主”的宝座,这家巨头亟需一剂良药。
日前有讯息称,英伟达将在本年3月的GTC大会上推出CPO交换机,若试产告成,则有望8月量产,届时CPO交换机可竣事115.2T的信号传输。
媒体征引供应链推测称,“针对(CPO交换机)产能,英伟达相称火暴。”
天然黄仁勋对外声称供货一切告成,但刻下GB200系列出货真实阻止乐不雅。GB200 NVL72机柜瞎想复杂,高性能计较带来了高功耗及高散热需求。零部件厂商示意,单机柜问题仍是“梗概处理”,但多机柜络续问题“巨大”——机柜络续需要高达8万根铜线,散热、信号侵犯等问题络续流露。
这不是骇东谈主视听的夸大其词——散热和络续的巨大问题,仍是影响到了英伟达那些顶级大客户的订单。
本周有另一报谈指出,微软、亚马逊、谷歌和Meta等公司仍是聘用推迟Blackwell订单、或顺利“弃B(Blackwell)投H(Hopper)”。一方面,GB200的功耗“前所未有得高”,每个机柜功耗高达120-132千瓦,顺利将传统冷却系统推向极限。另一方面,Blackwell机柜还出现络续故障,妨碍了热量分拨,又进一步加重了热管制问题。
散热互连问题紧追不舍,英伟达拿什么处理?芯片级优化,更先进的冷却有盘算,照旧透彻矫正机柜?
这一次,光通讯大致成为现阶段的最好期间解药,英伟达将眼力投向了CPO。
7年千倍成漫空间与172%CAGR
为什么是CPO?
CPO全称为Co-Packaged Optics,汉文译为光电共封装,是一种新式光电子集成期间。通过进一步裁减光信号输入和运算单元之间的电学互连长度,CPO在提高光模块和ASIC芯片之间互连密度的同期,竣事了更低功耗,已成为处理将来数据运算处理中海量数据高速传输问题的进军期间阶梯。
在2023年2月发表的一篇计划论文中,英伟达计划东谈主员曾直言,“刻下,跟着CPO面世,咱们正处于新一场紧要变革的边际。在CPO架构中,光学器件将和ASIC封装在扫数,以降顽劣耗、竣事更高带宽。天然十年前CPO就已开启系统部署,但最近的一系列计划演示以及相干居品讲解王人标明,将来几年,CPO将得到商场庸碌选择。”
摩根士丹利在最新发布的AI供应链产业讨教中指出,CPO具备AI数据中心的传输后劲,预估2023年至2030年期间,其商场领域将从800万好意思元激增至93亿好意思元——7年千倍的成漫空间,年复合成长率高达172%。
此前有讯息称,英伟达筹办从2025年下半年推出的GB300芯片启动选择CPO,Rubin平台(Blackwell下一代平台)也将选择该期间,旨在淘气刻下NVLink 72互连(最多可络续72个GB200芯片)的阻挡,晋升通讯质料。
大摩的讨教则指出,英伟达的Rubin平台过火NVL办事器机柜系统,在导入CPO的能见度更高,且每系统中的内含价值更高,预估2027年占大家CPO需求的75%。

与巨头同业
无论怎样,CPO这条路,英伟达也许是选对了,从AMD、念念科、IBM到英特尔,王人是同业者。
举例1月6日,好意思国芯片大厂Marvell(绝对电子)通告,公司在定制AI加快器架构上获得淘气,整合了CPO期间,大幅晋升办事器性能。这种新架构能让AI办事器智力竣事拓展,从刻下使用铜互连的单个机架内的数十个XPU,拓展到横跨多个机架的数百个XPU。通过这一架构,超大云办事商将能拓荒定制XPU,竣事更高的带宽密度,并在单个AI办事器内提供更长距离的XPU到XPU络续,同期具有最好延迟和功率着力。
2024年末IBM通告竣事一项紧要CPO期间淘气,不错以“光速”考试AI模子,同期精真金不怕火多数动力。把柄IBM论断,这项CPO期间不错将要领大模子的考试时期从3个月裁减至3周;何况,与中端电气络续比拟,能耗申斥了5倍多,数据中心互连电缆的长度不错从1米延长至数百米,大幅申斥拓展生成式AI的资本。
除此以外,英特尔、AMD、念念科等均有在比年OFC展上推出CPO原型机。
还有多远?
站在当下节点,CPO这根“稻草”能救得了英伟达吗?
大致还需要恭候。
在1月16日的投资者会议上,动作英伟达CPO协作伙伴台积电的董事长,魏哲家示意,天然CPO仍是有初步着力(Good Result),但想要达到量产阶段仍需要1年致使1年半以上时期。
另有媒体征引分析师表述称,CPO程度将影响英伟达Rubin系列的量产过程。供应链线路,刻下“量产确乎有难度,尤其是在设置部分仍相称吃紧,另外良率也有待晋升”。
值得一提的是,1月16日,针对GB200办事器散热问题,黄仁勋示意,Blackwell平台散热期间相对复杂现金巴黎人娱乐城app平台,不外Blackwell系统已启动全面量产,初期濒临的挑战对比系统的复杂度,是很平素的,Blackwell系统已启动销售给大家客户。