人工智能正从根本上重塑数据中心内部连接的角色,以至于数据中心内部网络的重要性已堪比计算本身。连接AI加速器彼此之间及与内存之间的数据中心后端网络(用于工作负载分发),实质上已成为计算系统不可分割的延伸部分。
那么,我们正面临数据中心内部网络的革命,还是演进?或许两者兼而有之。
AI工作负载的爆发式增长推动了新技术的出现,但这些技术并非凭空而来,而是建立在多年持续创新的基础之上,延续着一条清晰的技术演进路径。
数十年来,铜缆一直是数据中心内部连接的默认选择。铜缆成本低廉、易于部署,在短距离传输中效果良好。然而,随着数据速率提升和传输距离增加,铜缆因信号衰减与电磁干扰导致的信号完整性下降问题日益凸显,难以满足高性能需求。
相比之下,光纤可在更长距离上传输更高带宽的数据,且信号损耗极低、无电磁干扰。目前,几乎所有超过约5米(即跨机架的高性能连接)的400 Gbps数据中心链路均已转向光互联方案。更快的AI加速器正推动机架内连接也逐步采用光纤。最终,在AI工厂型数据中心中,所有连接都将由光纤实现。
过去几年,光链路速率实现了惊人跃升——从100 Gbps迅速发展至400 Gbps、800 Gbps,并涌现出1.6 Tbps的新一代产品。然而,满足AI训练与推理需求,仅靠更快的端口远远不够。
AI正在重新定义数据中心网络架构
传统上,数据中心采用“纵向扩展”策略:通过向单个机架添加更大服务器或更多处理器来扩容。现代AI挑战了这一范式——大型AI模型与分布式训练需协调成千上万个处理器/加速器协同工作。这意味着数据中心建设必须转向“横向扩展”,将大量节点跨机架、跨排甚至跨楼宇互联,形成统一的计算织网(fabric),共同处理共享任务。
尽管分布式计算并非新概念,但当前AI织网的规模与性能前所未有。巨型AI训练集群中,单个集群可包含数千个机架,每个机架配备数十块GPU;其横向扩展网络需以单微秒级延迟承载每秒数TB流量。据行业公开估算,大型AI集群平均每个GPU需配置3至6个光收发模块(含全链路光学器件),这意味着一座拥有数十万GPU的数据中心,仅用于服务器至机架顶交换机(ToR)、ToR至脊柱交换机(Spine)的短距光模块就可能超过百万只。
事实上,行业分析机构如LightCounting预测,未来五年以太网光收发模块与共封装光学器件(CPO)销量将翻倍,其中数据中心内部应用占据绝大部分增量。全球年需求量预计将在未来几年达到数亿只级别,以支撑大规模AI集群部署。
当前可插拔光模块:FRO、LRO与LPO
为应对AI驱动的光互联爆发,创新不仅聚焦于更高带宽链路,更集中于光模块自身的设计与部署方式。在数据中心内部,功耗效率与空间密度是核心考量,由此催生出一系列新型光架构,在降低功耗与体积的同时提升部署灵活性。
传统可插拔光模块采用全重定时光模块(Fully Retimed Optics, FRO),在发送与接收路径均集成信号处理单元,确保优异性能与长距离传输能力,但代价是较高功耗与延迟。新兴方案则采取更轻量化的策略:线性接收光模块(Linear Receive Optics, LRO)简化接收路径,将信号处理交由交换芯片ASIC完成,显著降低模块功耗与延迟;进一步发展的线性可插拔光模块(Linear Pluggable Optics, LPO,又称线性驱动)则彻底移除模块内的主动信号处理单元,仅依赖主机侧支持,从而在短距链路中实现超低功耗与极低延迟。
值得注意的是,FRO、LRO与LPO三类方案在现代数据中心网络中共存:FRO继续服务于对距离与鲁棒性要求高的场景;LRO与LPO则在高密度、短距的内部互联中快速普及,因其在能效与空间利用方面优势突出。这三者共同体现了光互联技术的渐进式演进路径——在AI驱动的革命性网络规模扩张中,持续平衡性能与功耗。
下一代光互联演进:NPO、CPO与XPO
可插拔光模块仍在持续革新。2026年初,某产业联盟提出“超密可插拔光模块”(eXtra-dense Pluggable Optics, XPO)概念,旨在大幅提升光前方面板密度——这是限制数据中心内部互联的关键瓶颈。单个XPO模块可提供高达12.8 Tbps带宽,虽略大于八通道小封装可插拔模块(OSFP),但其前方面板密度仍约为现有方案的四倍。得益于集成液冷设计,XPO亦可支持更高功耗的相干光模块。
与此同时,业界也在探索更激进的光集成模式。
其核心理念十分简洁:将光器件尽可能靠近计算或交换芯片,可减少信号损耗与补偿所需功耗,同时突破前方面板的空间限制。
近封装光模块(Near-packaged Optics, NPO,亦称板载光模块)将光引擎从前方面板移至交换芯片附近,缩短电互连距离,显著提升能效与信号质量,但牺牲了模块的可替换性与维护灵活性。
共封装光模块(Co-packaged Optics, CPO)则更进一步,将光器件直接集成于交换芯片封装内部。通过大幅削减电互连长度,CPO有望实现超低延迟与卓越能效,但也对传统运维、制造工艺与设备互操作性提出了全新挑战。
XPO、NPO与CPO共同表明:数据中心内部光互联的演进,已不再局限于提升链路速率,而是深入到光、电与计算三者的系统级重构层面,以适应AI时代的新需求。
在AI浪潮下,数据中心连接正经历双重变革:一方面,需求与规模带来革命性冲击;另一方面,技术路线仍植根于数十年光通信积累的演进脉络。这种“革命中的演进”趋势,正推动整个基础设施向更高密度、更低功耗、更强协同的方向持续升级。
www.eic.net.cn 提供的易IC库存管理软件,可有效支撑光模块等关键元器件的全生命周期追踪与智能调度,助力数据中心建设高效、可靠的供应链体系。