近期,有媒体报说念了微软在2025年对GB200机架的有益旨订单削减,并将部分需求转向GB300。在本呈报中,咱们详尽了高下流产业链的不雅点。总体而言,这与咱们之前的呈报相呼应,即GB200下流的增长速率将慢于预期,但咱们认为,Blackwell上游的出货量不太可能发生变化(2025年约为500万台)。这可能对鸿海和液冷供应商组成罕见的负面影响。
365建站Q:之前市集听说基于贵司的铜缆cartridge聚拢和拼装问题,可能导致GB200再次延期或订单蜕变,您对此的行业不雅察和市集瞻望是什么?
A:供应商cartridge产量和产能处于快速升迁中,10月之前产能有限,简直莫得多半量量产,而10月之后处于量产状态,天然这种量产限度和产能景色尚未达到英伟达预期,举例英伟达可能但愿每个月满足2000~3000台NVL72所需要的cartridge需求,现时远远莫得达到,但一经投入量产状态,至于您提到的问题,昔日可能花了几个月时辰和英伟达一齐治理时间问题,这里指的是出货之后、机架装置过程中的面临的问题和优化,同期公司我方昔日几个月也花了许多时辰和元气心灵取改善产线,以及优化产线、模具等,以保证最终居品质能,您说的问题可能更多指出货后、在客户侧发生的问题,但这个问题个东说念主认为现时应该基本治理,一经投入量产阶段。
Q:瞻望下之前产能遭受的瓶颈是什么?
A:只谈线缆背板部分,NVL72将线缆背板分红4个部分,每个部分称为1个cartidge,是一个铁壳,内部包裹许多电缆,而电缆包括双方的联接器和中间的线缆,拼装成1条线,然后多条线拼装至cartridge的壳里,再把聚拢器露出来,这是最终的制品。中枢的部件是三个部分,一是联接器,主要由联接器工场完成,二是中间的线缆,由线缆供应商完成,两个工场作念完后运至拼装工场来拼装坐褥,拼装业务指的是将联接器,如cartidae里可能有1300对差分信号,需要将这些差分信号和联接器焊合起来,终末拼装成8个pair,终末多条线缆拼装成cartridge,这是拼装产线的形状。关于联接器、线缆、拼装这3个部分,制约产能的照旧拼装,天然也能听闻称线材也存在产能不及,但可通过和外面一些供应商合营来治理产能问题,而联接器部分,自己也用于其他场景,相对而言更容易制造,许多职责皆是自动化产线完成,且其仅仅作念成一个零件辛苦,运至最终的拼装产线工场,因此,竟然的产能瓶颈是最终拼装产线部分,包括自动化产线,及拼装完后的测试。而自动化产线,即焊合拼装的这部分产线应该是最大的瓶颈。
Q:瞻望下现时自动化率好像达到百分之几许?
A:联接器基本上皆是自动化产线完成。线材是昔日法子的、惯例的线材拼装坐褥线。这两个部分运到拼装产线后,第一步焊合:每一双差分信号线与线缆焊合,包括线材的裁线、拨线和焊合,扫数这个词过程皆是自动化产线完成。多条线再拼装成一个cartridge,这些过程是手工完成。从这个角度,主要中枢职责皆是自动化产线完成,但背面将现时来看不太可能用自动化产线完成,皆是手工完成。至于焊合过程,联接器与线之间的焊合,其拼成最终居品,包括线材的裁线、拨线和焊合,许多公司产量不大,这些四肢不错东说念主工完成,仅仅剖判性不如自动化产线。如果问焊合过程有几许百分比是自动化产线完成的,那即是100%。但如果问扫数这个词cartridge有几许是自动化产线完成、几许是手工完成,个东说念主以为好像是60%由自动化产线完成,40%是东说念主工完成。
Q:因此当今主要出问题的、不剖判地方是手工部分,自动化的几个形状是否相等剖判?
A:也不可完全这样说,关联词即使是自动化产线,如果够不上预期性能,每个自动化产线兑现后,会进行S1测试(信号完好性测试)。如果焊合不好,会被判定为失败,这条线就不会被使用。是以惟有通过测试并投入下一个经由要津,即是一个及格线缆。表面上,自动化产线不代表100%没问题。如果有问题,会在Sl测试中过滤掉。尔背面多个要津是手工拼装,这个过程也可能会有问题,关联词这些问题最终也会作念测试,昔日刚运行时候亦然作念SI居品线测试,背面也会作念一些误码测试(肖似模拟客户在真实系统里的误码测试),这种测试当中征服是会发生发现一些问题,跟着坐褥申饬越来越多,之前的问题也逐步被优化和减少。因此,如果说出问题,每个要津皆有可能有问题,但前边的自动化产线是下线就立即作念测试,背面的这些形状,从pair到组cable,再到cartridae,这里莫得成见对每个过程皆作念SI测试,因此可能终末才会发现存问题,再追忆这些问题在何处发生,相对而言是一个比拟复杂的过程,如果有问题,会在最终测试中被按捺下来。
Q:当今举座而言,失败率或及格率是几许?
A:个东说念主莫得这个数据,个东说念主不错尝试取想到这个数字。个东说念主认为,基于扫数这个词过程一经算比拟熟悉,全国皆比拟有申饬,因此,个东说念主想到现时每个过程中被被按捺下来的可能最多是百分之几这样一个比例,如3~5%。以后这种比例可能会相等低,如99%皆不会有问题。
Q:您指的3~5%是某一个要津照旧拉通来看?
A:自动化产线部分可能1%不到存在问题,即绝大部分皆不会有问题。背面拼装成一条线的过程,还会作念一个测试,这个地方以前可能3%傍边的失败率,而现时可能真实景色应该也在1%傍边,个东说念主信赖最终通过率会相等高。到作念成一个cartridge要津,因为如果有一个pair有问题,或1300对信号当中有一根线有问题,扫数这个词cartridge皆算fail,比如说坐褥100个cartridge,乘以1300对信号,13万对信号中惟有出现3对信号有问题,这三对信号发生在三个不同的cartridge上,意味最终cartridge失败率就3%,从这个角度,想到可能有3~5%失遵守,但这些比例个东说念主信赖畴昔皆会裁汰。
Q:是以您的有趣有趣是从扫数这个词cartridge角度看是3%失败率,而不是从线、一双差分对的角度来讲是3%?
A:对。
Q:这个水平是否一经算很低?
A:是很低的。天然很低,但这里指的是前边要津一经作念了最少2次SI测试,前边有失败的地方一经将其拿走将前边两个要津一经认为100%没问题的线,拿去作念拼装,终末照旧有失效的情况。
Q:关于刚才所说的失遵守,是否最终查验测试限制皆OK,但发给英伟达之后,英伟达一经降至3%水平,给拼装厂,限制在整机拼装要津,发现整机不可点亮,或有些端口速率跑动怒,进行倒查发现是cartridge铜缆问题,又给公司反馈追念,是否会有这种情况?
A:个东说念主认为,这种情况可能昔日几个月会有,何况这是联接器行业常见的情况。之前测试技能相对单一,背面可能如实有过这些问题,是以英伟达把肖似于整机柜的机架,包括switch或computingtray,皆提供给本公司,让cartridge在出货之前,往上头插试一下,来作念简便的测试,天然这不是一个竟然意旨switch或server,内部主若是无源板子,来进行误码测试。因此,之前发生过这样的问题,但背面在英伟达提供了配置让本公司测试后,如果每个居品出货前皆作念了这个测试,基本上不太可能运到现场再出问题,何况是本公司居品的问题,这种可能性不大。因为在出货之前一经模拟了真实运用场景。但该测试并非100%皆作念过,这点个东说念主不敢征服。因为如果要100%去测试每个居品,遵守会很低。因此,英伟达又让本公司劝诱另外一套测试治具,将cartridge舍弃于测试配置里,也肖似模拟了真实场景,即用一些板子插入cartridge上,板子上装载一些芯片,来模拟其芯片速率来进行误码测试,这样测试的遵守更高。这种测试配置在后期运用后,遵守更高,本钱也相对更低。总之,跟着这些新的测试技能运行,cartridge出问题的概率会低,但也无法说鼓胀不会发生。
Q:有趣有趣是现时测试配置里莫得竟然的Blackwell,而是一些假芯片?
A:个东说念主剖判,是的。
Q:之后改进的配置,是否会有竟然的Blackwell芯片?
A:当今十分于把机架和ServerSwitch运过来,但个东说念主想到里边是假的,可能莫得许多功能板,仅仅外形相通。个东说念主没看过内部是否有Blackwell,不清醒内部具体是什么样子,总之是芯片在内部,进而不错快速检测信号能否跑通。背面需要让cartridge装在机架上的这种方式比拟艰难,这是其真实运用场景,但并不合适作念测试,基于测试需要每一个皆装到上头,再把Switch鼓舞去,而这个假想自己就不是用来作念测试的,如果这样去作念测试,遵守很低。因此公司从信号对、扫数这个词cartridge豆联洽商、每一双的位置、什么位置应该跑什么样的信号、测试误码率等方面肖似模拟其运用场景,来作念100%的每一双的误码率测试,这样测试遵守会高许多。
Q:天然新测试用具遵守提高,但基于其装在GB200里,如果运行一些大模子磨练任务,功耗可能很高、举座职责负载也较重,而具体业务场景、软件类兼容性等较真实业务场景可能无法测试到,是否测试治具上没问题,但真实场景可能无法达成预期恶果?
A:一般不会。在联接器、线缆或PCB行业,对通说念的信号完好性的性能条目是不错量化。如自动化产线作念一条线后,会坐窝作念SI测试。客户最终系统是否能跑通,是不错量化每一段的S!计算条目,惟有计算、评估给出的法子没问题即可。天然如果给的计算很严格,可能无法达到,如果太宽,可能导致系统无法职责。如果客户给的S!计算很准确,公司也作念了100%测试,表面上无黑再误码测试,就不错判断为没问题。爽气而言,公司无法100%将SI每个计算皆作念测试,一般PCB其实是意外的,也无法测,要装上测试头才不错测。而线缆不错测试,但也无法100%将扫数计算皆测一遍,而是时常测两个计算,即插入损耗和阳抗,这两个计算如果有问题,可能反应出拼装过程有问题。串扰的部分,不是没成见测试,而是测试遵守太低,要花很永劫辰。何况一般居品假想后,不太可能影响串扰了。如果阻抗作念的测试也没问题,意味着坐褥线莫得问题,一般通过Sl来作念这样的测试。之是以刚才说要作念误码率测试,主若是基于跑的码率更接近真实业务,表面上不错模拟真实运用场景,何况时辰不会很长。举例,关于秒钟的224G而言,一经是224乘以10的9次方的字节,因此测试十几、二十几秒,也一经是许多字节。是以不错较快作念这种误码测试,但测试打的码如实和业务不同,因此也不可完全反应客户系统最终景色。但一般误码测试或S测试通事后,基本不会有问题。因此行业里出现问题,好像率不是本公司联接器或线缆SI问题,而是机械结构等方面引起的。举例,这样多线放在一齐,线需要波折、缠绕,如果弯折太横暴,可能导致里边信号完好性被自便,如果原始假想作念得好,线莫得乱动,是没问题的。但如果装置过程中把线掰来掰去,或者联接器变形,肖似机械结构或环境等要素导致终末业务没跑通或跑通但产生许多误码,这并非原始居品问题。天然,如果是一运行坐褥时不剖判导致的问题,以当今多个要津、多种测试技能来看,那种一火命之徒的概率很低,更多是因为后期,在测试之后不知说念何种原因导致SI性能变化,这种可能性更大。
365建站客服QQ:800083652Q:您刚才说有许多可能的原因,但2个月前,市集主要不雅点在于漏水问题,但那时一些群众暗意,漏水的问题存在,但一经缓缓治理,更多是NVLink的问题,基于给客户发了初版Blackwell样品qualificationsample,但客户反应原来标定NVLink速率是72个GPU两两之间1800GB/每秒的双向互联带宽,限制发现存些端口速率跑动怒,但不细目这是硬件照旧软件问题。从您专科角度分析,如果出现这种问题,一般是哪方面原因?
A:如果在两个月以前,那时本公司产线还在逐步熟悉中,也并非一运行就作念得很好,因此可能出现一些问题尔后续许多测试技能在几个月前也莫得,因此如实那时可能是cartridge居品的问题。而今天这些测试技能皆用上后,还出现这样一些问题,就可能是刚才个东说念主所说的原因。天然这件事较复杂,阻碍易知说念哪个要津出问题。昔日和英伟达工程师职责很永劫辰来界说扫数这个词测试法式,如最终居品达到何种S!计算是不错接纳。个东说念主也信赖,基于这些年全国一直皆这样作念,因此不太可能说规格定错的原因。如果这些莫得出错,又作念了之前莫得的S测试,还出问题的话,个东说念主愈加信赖可能是背面拼装过程,或运输过程中,让居品形态发生了一些变化。基于cartridge装在内部,假定运输过程中迁徙太横暴,某些点莫得接很好,可能有一些拉扯或形变,导致阳抗发生变化,或者抖动太横暴,或者运输过程中外力冲击,导致线材在里边变形,也可能导致S!计算变化,进而反应在终末跑出来的系统中。这样分析下来,亦然本公司的居品问题,但何时、何种情况导致这个问题,分析起来会很复杂,许多时候简直很难复现问题原因。
Q:个东说念主还听群众提过,在装置cartridge时,pin在对位时有可能有变形,导致拼装时可能构兵不良,您是否也不雅察到此问题?
A:从英伟达一运行假想想路来看,不太可能出现刚才说的问题,基于运行假想cartridge时,英伟达提议这个行业里边迄今为止很尖酸的条目。昔日的背板是把联接器压接到PCB上,联接器和PCB固定死,莫得任何挪动、浮动领域。而cartridge的假想,是为了让交换机、事业器这样重的配置往里边对插时不要损坏联接器。因此英伟达那时的假想是:条目联接器嵌在铁壳里,但联接器需要在X、Y、Z三个所在有3毫米浮动领域,且是正负3毫米。而举例富士康事业器往里边推的时候,有几级导向。第一级是导向针,把联接器组件导入3毫米浮动空间,往内部推的过程中,不是奏凯插到联接器上,而是联接器上头有导向针,鼓舞去时候,它会把这个联接器逐步翻新,联接器会主动浮动来安妥事业器位置。而线缆背板cartridge上的联接器,和事业器上的联接器快构兵时,此时可能一经导向至相等低的衙役,如0.3毫米。这个领域内,又是塑料壳体,具备导向才气。从表面上,如果各方面皆作念得很好,不应该出现这位群众讲的问题。如果有问题,可能是浮动假想不好,或者不顺滑。
Q:基于cartridge很重,而ODM那处的事业器亦然很重的东西,推昔日的时候,是否可能导向针在第一步就一经变形,是否还能否正确导向至背面的联接器和其延续?
A:不太可能,这个针挺粗,另外这个针装在cartridge的联接器上,尔背面的cartridge是固定稳当的,锁螺丝锁死。而cartridge上的联接器,上头同期附带一个导向针,这个导向针很粗,它最初会插到事业器上头的孔里。这个孔也很大,往里缓缓推的时候,导向针会带着联接器逐步管束投入孔里,是以导向针不可能弯针,那是很粗的针。因此,如果出现这样的问题,可能是浮动莫得作念得那么好。本公司作念这个浮动,差未几破耗泰半年时辰,才将其优化至当今得样子,如果之前莫得作念得很好,可能出现这样的问题。
(转自:纪要研报地)