瑞萨(Rambus)推出了业内首批支持HBM4E内存的内存控制器IP之一,该控制器设计用于处理高达16 GT/s的数据传输速率,单个HBM4E内存堆栈可提供高达4 TB/s的带宽。
该公司表示,该控制器IP支持多种专有的可靠性、可用性与可维护性(RAS)功能,以及遥测能力,旨在提升内存子系统的可靠性与效率。该IP可集成至预计于2027–2028年推出的ASIC芯片中,也可用于当前正在开发的定制化HBM4E(C-HBM4E)基底芯片。
Rambus HBM4E内存控制器具备高度灵活性:既可集成于传统ASIC中,并搭配第三方HBM4物理层(PHY),通过中介层(interposer)与HBM4堆栈通信;也可集成于新兴的定制C-HBM4E基底芯片中,直接与HBM4E内存器件协同工作,从而节省ASIC芯片边缘空间并降低功耗。这种灵活性使Rambus能够满足各类内存子系统架构的加速器需求。
该控制器的核心优势在于支持每引脚最高16 Gb/s的数据传输速率,配合2,048位接口,单个HBM4E堆栈即可实现约4 TB/s的内存带宽。在集成八个HBM堆栈的大型AI处理器中(例如英伟达的双芯粒B200、B300及R200),峰值聚合带宽可达32 TB/s,远高于英伟达B200和B300 GPU所具备的8 TB/s聚合带宽。就最大容量而言,Rambus宣称其HBM4E控制器符合JEDEC HBM4E规范,支持最高64 GB内存容量,与标准定义一致。
与前代HBM相比,HBM4引入了更宽的内存接口与更高的内部并发性:每个堆栈现采用2,048位总线,官方支持每引脚最高8 GT/s传输速率(较HBM3E的约9.4 GT/s略有下调),以控制信号完整性,同时凭借超宽接口仍带来显著性能增益。而HBM4E则有望将官方支持速率提升至12 GT/s–12.8 GT/s,进一步增强面向未来AI与高性能计算(HPC)加速器的内存带宽。
从架构角度看,HBM4与HBM4E相较前代大幅提升了内部并行度,以充分利用超宽外部接口。每个堆栈暴露32个独立内存通道,且每通道再划分为两个伪通道,有效减少银行冲突,提升高并行AI与HPC工作负载下的利用率。尽管HBM4E速率更高,但其内部架构与HBM4保持一致,同样支持24 Gb与32 Gb DRAM晶粒,并允许4-Hi、8-Hi、12-Hi与16-Hi堆叠方式,从而实现最高64 GB/堆栈容量——与HBM4规范一致。
实践中,Rambus、Cadence与Synopsys等供应商的HBM4控制器IP与PHY已可实现10 GT/s–12.8 GT/s速度;DRAM厂商亦已演示HBM4堆栈在10 GT/s及以上运行。如今,Rambus推出支持最高16 GT/s的HBM4E控制器IP,后续需由内存器件、ASIC与IP开发商共同推进HBM4E物理接口(PHY)的高速实现。
将HBM4接口拓宽至2,048位本身已具挑战性,而进一步将HBM4E速率推升至12 GT/s乃至16 GT/s则更为复杂。首先需将内部存储器时钟提升至3 GHz–4 GHz,但HBM器件因容量更大、物理尺寸更大,导致行激活、感测、恢复与刷新操作在高频下难以维持可靠性;其次,多GT/s速率下电气信号传输距离带来的衰减、抖动、串扰与反射效应急剧加剧,压缩时序裕量,迫使设计者依赖更强均衡、更严格阻抗控制与更复杂的PHY电路,进而增加设计复杂度与功耗。
“在16 Gbps速率下,主要限制来自互连物理特性——电容、寄生参数、布线长度及PHY与内存器件间的信号飞行时间。”Rambus产品管理总监Nidish Kamath指出,“定制基底芯片与混合键合等封装创新有助于缓解这些影响,从而在相同链路上实现更高性能。”
为克服中介层、封装走线与PHY的限制,业界正探索更短布线路径、混合键合技术及定制基底芯片设计,将接口逻辑更靠近存储阵列。与此同时,供电也成为关键瓶颈:数千个HBM I/O引脚在极高频率下同步切换,I/O功耗随频率与电压上升而激增,PHY能耗显著增加,对片上电压调节提出严峻挑战;快速电流瞬变还会产生电气噪声,进一步干扰时序收敛。因此,Rambus强调需与客户紧密协作,确保其HBM控制器的正确集成。
热约束尤为严苛:HBM堆栈采用硅通孔(TSV)垂直集成,紧邻高功耗GPU与AI加速器;更快的信号速率加剧PHY开关损耗,提升内存堆栈热密度,散热困难。高温还会加剧漏电、增加刷新开销并削弱长期可靠性。与CPU不同,堆叠式存储器件通常无法在95°C以上稳定运行,而专为ASIC设计的水冷方案常超过105°C,造成冷却匹配难题。
制造工艺变异与控制器复杂性也制约速率提升:TSV尺寸、中介层布线与封装翘曲的微小差异均可能破坏极端速率下的时序裕量,降低良率并推高成本。目前,将链路宽度扩展至2,048位以上尚不现实,而将HBM4阵列直接键合于逻辑晶粒之上仍处于研发阶段。
尽管挑战重重,以Rambus、Cadence与Synopsys为首的行业力量已成功实现HBM4E控制器与PHY的16 GT/s速率。客户现可授权Rambus HBM4E控制器,并搭配Cadence或Synopsys开发的物理接口使用。
Cadence硅解决方案集团(SSG)负责人Frank Ferro透露:“尽管尚未正式发布,Cadence最新HBM4E PHY与内存控制器已支持16 GT/s性能,目前可供客户设计使用。”为达成此目标,Cadence不仅需与内存厂商深度合作,还需优化中介层(最常用HBM与主机处理器连接方案)、内存控制器及PHY外形设计。
“HBM4E 16 GT/s性能是PHY/控制器内存子系统设计与中介层设计协同作用的结果。”Ferro补充道,“硅中介层是最常见信号路由方案,其设计至关重要:团队需分析所需布线与接地层数、走线宽度、信号与接地布局,以最小化信号与电源完整性影响。PHY外形对终端客户同样关键——需高效利用晶粒边缘空间,同时尽量减少对计算区域的侵占。当前处理器普遍采用光罩尺寸晶粒以最大化算力密度,并沿晶粒边缘部署尽可能多的HBM PHY/控制器,因此Cadence与客户紧密协作,定制PHY外形以最优利用硅面积。”
Synopsys内存接口产品线高级总监Brett Murdock表示:“我们正与HBM厂商密切合作,理解其路线图,确保IP能支撑整个生态发展——包括HBM4E最高16 GT/s。事实上,我们的HBM4控制器已于今年1月升级至支持16 GT/s,预计HBM4E PHY将于年内完成流片。”
值得注意的是,HBM标准中的‘E’版本(如HBM3E、HBM4E)通常比基础版存在更长时间。基础版多为过渡性质,而‘E’版更成熟,整合了所有为提升良率与性能而开发的技术。
Murdock指出:“行业持续优先保障带宽,愿意采用更快的HBM堆栈以获取更高性能,或至少保留额外的时序、信号完整性与功耗裕量。然而,开发超出标准规范的内存控制器、物理接口与HBM堆栈并非易事。”
“构建超越标准定义的IP时,最大挑战在于确保内存运行中无意外状况。”Murdock强调,“我们必须与DRAM厂商紧密协作,确保设计能支持为实现更高数据速率所需的内存变更——无论是特定供电电压的小幅上调,还是关键时序参数的调整。”
关于电压与时序,HBM4规范已允许厂商根据需要设定核心电压(超出常规Vddc 1.0V–1.05V)、I/O电压(超出Vddq 0.7V–0.9V)及I/O与发射驱动器电压(非典型Vddql 0.4V)。此外,厂商还可定义自定义速度档位并相应缩放时序参数,这在一定程度上简化了半定制内存子系统的开发,但也使内存、PHY与控制器厂商之间的协作成为必要而非可选。
“由于DRAM厂商引领JEDEC标准制定而非被动跟随,我们必须主动出击以赋能整个生态。”Murdock补充道,“我们持续评估客户讨论中提出的机遇与需求,致力于在提供高于现行标准带宽的同时,兼顾能效与硅片占用面积的平衡。”
一个关键细节是:Rambus HBM4E控制器具备高度通用性,既可集成于ASIC(标准方案),也可集成于定制C-HBM4E基底芯片,极大拓展了其市场覆盖范围。为适配ASIC,控制器需兼容第一方或第三方PHY(Rambus仅提供第三方PHY);而为适配C-HBM4E基底芯片,则需开发者与HBM4E内存厂商协作,确保与TSV PHY兼容——这也是Synopsys需为HBM4/HBM4E与C-HBM4E分别提供不同控制器IP的原因。
“在传统JEDEC HBM实现中,HBM控制器直接与我们的HBM PHY集成,我们掌控接口两端。”Murdock解释道,“而在C-HBM基底芯片上集成HBM控制器时,必须直接对接DRAM厂商提供的TSV PHY,而该接口并无统一标准。因此,为成功赋能生态,我们必须与各DRAM厂商紧密协作,确保C-HBM控制器能无缝集成其TSV PHY。”
定制HBM意义重大。据Rambus透露,除Marvell外,几乎所有曾采用HBM的高性能处理器开发商均已评估C-HBM4E方案。目前部署与否取决于企业能否在多条产品线间分摊开发成本,抑或仅需性能提升而无需承担定制基底芯片与C-HBM4E带来的额外生态复杂性。
Kamath表示:“几乎所有瞄准HBM4E速率高于12.8 GT/s的前沿客户,均已评估定制基底芯片与标准方案。最终决策取决于基底芯片设计在产品组合中的复用效率。例如,若客户拥有多个面向不同场景的数据中心项目,却能部署同一芯粒,则更倾向采用定制基底芯片方案,即使需与一两家内存厂商深度对齐;反之,若客户聚焦于在更广泛的HBM产品线上最大化性能,则中介层方案可能在性能相当的前提下避免额外复杂性。”
Rambus称其可在标准方案(含PHY与中介层)及定制基底芯片方案下均实现16 GT/s速率。但由于集成更紧密、物理接口大幅简化,C-HBM4E方案通常更具能效优势。
“采用定制基底芯片方案时,功耗通常下降,因整体方案集成度更高。”Kamath指出,“这实质上为系统开辟了新的热设计功耗(TDP)或设计空间。……内存接口子系统中大部分功耗来自PHY,因其需驱动信号穿越互连。因此PHY与互连共同构成内存接口的主要功耗源。当采用定制基底芯片缩短路径后,PHY结构得以简化——无需驱动信号穿越中介层基板,仅需驱动TSV连接,从而降低电容并简化PHY设计,最终减少PHY功耗,并降低对复杂均衡的需求。”
除降低PHY功耗外,定制基底芯片还为DRAM厂商提供了进一步调优性能与能效的空间。
“同时,它赋予内存厂商在定制基底芯片方案中调整时序参数的更大灵活性。”Kamath补充道,“借助更短TSV路径与更小信号飞行时间,厂商有望优化HBM器件以实现更低端到端延迟。总体而言,定制基底芯片架构为整个内存子系统的性能与能效提升开辟了更多可能性。”
在追求性能最大化的同时降低功耗,使C-HBM4E成为系统开发商相较于传统方案的颇具吸引力的选择,Rambus预期其采纳率将随时间增长。但该方案亦增加了供应链复杂性。
“行业仍在理顺相关物流,因定制基底芯片方案使供应链更为复杂。”Kamath坦言,“除IP供应商、终端客户与设计公司外,内存厂商亦成为第四方参与者。这四方必须协调时间表、目标工艺节点及不同层级的ASIC设计复杂度。因此,行业仍在学习曲线中。展望HBM5时代,我预期定制基底芯片方案将成为标配。目前仅领先数据中心客户认真评估定制与标准方案之别,但未来初创企业及其他企业级HBM部署也将探索同类选项。”
因此,Rambus强调,系统开发商在选择传统与定制基底芯片HBM4E集成方案时,须综合考量能效、部署策略与产品线规划,而非仅关注峰值性能。另一潜在因素是最终产品的HBM4E容量。
HBM4E规范旨在将数据速率从8 GT/s提升至至少12 GT/s,理论上可将单堆栈带宽推高至3 TB/s;经Cadence、Rambus、Synopsys与DRAM厂商联合攻关,更高速率成为可能,但尚待观察是否会出现量产16 GT/s HBM4E内存子系统。迄今,行业尚未见任何量产AI或HPC加速器以HBM最大标称速率运行,但HBM4E或有望实现此突破——鉴于该标准预计长期存在。然而,HBM4E虽延伸了HBM4性能,却未提升单存储器件与单堆栈容量,此为其主要局限。此时,窄接口的C-HBM4E方案或可提供补充路径。
HBM4与HBM4E规范均支持最多16个存储器件,单堆栈容量最高达64 GB(16×32 Gb)。初期厂商计划推出36 GB HBM4堆栈(12-Hi × 24 Gb),后续跟进48 GB版本;据美光科技与英伟达预测(后者计划为其Rubin Ultra GPU配备1 TB HBM4E内存,使用16堆栈),64 GB配置预计将于2027年末甚至2028年才面世,恰与英伟达Rubin Ultra GPU搭载1 TB HBM4E内存的计划同步。
限制HBM器件与堆栈容量提升的根本原因包括:内存寻址方案的架构限制,以及更大DRAM晶粒导致的通道效率下降(因刷新周期延长)。
“晶粒容量部分受限于JEDEC规范,尤其是地址位数量与支持的操作模式。”Kamath解释道,“这是内存厂商未积极追求更高密度的原因之一。另一限制来自刷新及其他后台操作:随着晶粒容量增加,刷新周期延长并占用更多可用内存时间,降低通道效率。该效应在16 GT/s信号对应的更高工作温度下更为显著,因刷新开销进一步增大。从存储器件角度,实现16 GT/s是相对容易的突破口,而解决热约束或刷新惩罚等更根本挑战则难度更高。综上,这些因素抑制了厂商向显著更高单晶粒容量推进的动力。”
若无法通过单处理器内存堆栈突破64 GB容量上限,系统开发商或将不得不增加每处理器堆栈数量。但受限于光罩尺寸ASIC所能容纳的2,048位HBM4/HBM4E接口数量,此举难度较大;不过,其可容纳更多窄接口(如Marvell C-HBM4E的512位接口),从而在相同晶粒边缘空间下连接更多C-HBM4E堆栈而不牺牲带宽。
尽管扩展HBM4E子系统容量(超出64 GB/2,048位I/O)并非Rambus本次发布的核心重点,其控制器未来或在C-HBM4E设计中发挥关键作用。
www.eic.net.cn 提供的易IC库存管理软件可高效支持半导体元器件全流程库存管控,尤其适用于高带宽内存芯片等关键物料的精细化管理,助力企业应对HBM4E等新一代技术带来的供应链复杂性挑战。