剑指!英特尔披露硅光集成路线图,芯粒为未来基建打地桩
芯东西7月31日报道,光纤通信大会(OFC)被公认是全球光通信领域规格最高、规模最大的国际盛会,是光通信前沿技术发展的风向标。在今年的光纤通信大会上,英特尔硅光集成解决方案(IPS)团队分享了其在推动高带宽互连技术创新上取得的突破性进展——业界领先的、完全集成的OCI(光学计算互连)芯粒,与英特尔CPU封装在一起,可运行真实数据。
面向数据中心和高性能计算(HPC)应用,英特尔打造的OCI芯粒实现了光学I/O共封装,可在最长100米的光纤上单向支持64个32Gbps通道,有望满足AI基础设施日益增长的对更高带宽、更低功耗和更长传输距离的需求。
英特尔尚未公开OCI芯粒的确切尺寸,但最近发布的照片显示了OCI芯粒与标准2号铅笔末端橡皮擦的对比。
针对OCI芯粒的更多技术细节,近日,英特尔研究院副总裁、英特尔中国研究院院长宋继强与芯东西等媒体进行了深入交流。宋继强分享了英特尔硅光集成的未来创新路线图,通过提高线速率、每条光纤的波长数、光纤数量和偏振模式,有望扩展未来几代OCI芯粒的性能,打造出带宽达32Tbps的器件。
英特尔正在向内部和外部的不同客户提供OCI芯粒。具体的客户应用和产品要求将决定这些扩展计划的顺序和时间。
一、电气换硅光≈单车变摩托随着生成式AI发展提速,大模型需要高计算密度、大内存容量和带宽,而且很难在单台服务器节点里部署,因此需要跨机架连接。大计算集群又意味着更长的传输距离、更高的I/O带宽要求。
宋继强谈道,AI应用对存算比的要求已经到了一个新的级别,经常需要访存,所以内存通道及延迟会影响未来如何提供大规模的应用服务。这要求探索一些新方法,在提高算力和存储密度的同时降低功耗、缩小体积,从而在一个有限的空间里,放进更多的计算和存储(芯片)。
以前电气I/O用铜线完成芯片间的互连,铜线速率够快,功耗也低,但有效的传输距离很受限,短到1米左右。
如果在整个数据中心建集群,还会面临集群占地面积大、线缆过长、长距离传输功耗高的问题,难以实现对高算力和节能的兼顾。一个数据中心里放了很多个服务器节点,能供的电有上限,机架里除了有芯片,还有I/O等其他地方耗电,真正分给每颗芯片的用电就很受限。
据宋继强分享,从过去二三十年来看,整个计算里I/O需要的电越来越多,如果用现在的技术、按现在的规模去增长,它会吃掉所有供给机架的电源,导致没有足够的电去做计算和存储芯片里面的读写操作,因此必须要用新的技术方案去把用于I/O这部分的电给压下去。
英特尔将传统电气I/O比作马车,传输速度和距离都很有限;如果在100米内实现更高密度、更灵活的数据传输,硅光集成方式就好比轻便的摩托车,既快又灵活,有效且节能;如果是超过100米的远距离传输,使用可插拔光收发器则就像换上汽车,容量更大,而且速度够快。
光学I/O、可插拔光收发器都属于硅光互连方案,具有低功耗优势,适合较长距离传输。
可插拔光收发器方案相对成熟,可直接与电子集成电路(EIC)接口连接,可增加传输距离,但体积较大,通常需要高速串行器与解串器(SerDes)或数字信号处理(DSP)技术,因此功耗较高,带宽密度较低,延迟较长。
而通过使用硅光集成技术,光学I/O能在低功耗、高带宽密度、低延迟和更长的传输距离下实现多Tbps的带宽,满足AI扩展的需求。
OCI芯粒(或任何光学I/O解决方案)与CPU、GPU或SoC共封,可以优化和改善I/O带宽密度、总能效比、延迟和成本,还可以通过支持资源解聚的新架构(如HBM或CXL内存池化)来实现更高效的资源利用。
未来英特尔会针对不同的传输距离提供不同的方案,包括OCI光电共封装和可插拔方案。
二、和CPU联合封装,英特尔OCI芯粒如何带飞能效?英特尔OCI芯粒是一个完整的物理层光I/O器件,包括一个带有片上密集波分复用激光器和半导体光放大器的硅光子集成电路(PIC)以及一个用于控制PIC和连接主机的EIC。
EIC的功能更接近于具体的信号怎么被使用、跟哪些部分去对接,会变成一个协议里的转换适配层。PIC更多是解决光的稳定传输,把信号调上去、发出去,可持续演进,比如在电介质和光介质之间如何完成很好的转换。
EIC采用标准CMOS工艺节点,PIC采用基于300mm硅晶圆上运行的英特尔硅光子制造工艺。通常EIC采用相对先进的制程,以接近或对齐要支持的主芯片,PIC则采用更成熟的制程。
由于没有用可插拔的方式,这样的计算部件本身功率更低,能在提高带宽和延长传输距离的同时,有效提高硅光互连的集成度,从而实现性能和能耗提升,并有助于增加集群密度。
英特尔完全集成的OCI芯粒,双向数据传输速度达到4Tbps,并兼容第五代PCIe,单向支持64个32Gbps通道(宋继强说这在当前的数据中心中已经足够了),传输距离达100米(由于传输延迟,实际应用中距离可能仅限几十米)。
它采用8对光纤,每根8波长密集波分复用(DWDM),功耗仅为每比特5pJ(皮焦耳),只有可插拔光收发器模块功耗的1/3。
据宋继强透露,英特尔通过对器件和封装设计、制造工艺和带宽扩展的各种改进,有信心在后续几代产品中将能效降低到每比特3.5PJ以下。
在2024年光纤通信大会上,英特尔现场进行实时光学链路演示,展示了通过单模光纤(SMF)跳线在两个数据中心CPU平台之间实现的发射器和接收器互连。
CPU生成并测量了比特误码率。两个数据中心CPU相互发送和接收数据,一个OCI芯粒和一个CPU联合封装在一起,OCI芯粒把从CPU出来的所有电气I/O信号转成了光,通过光纤,在两个数据中心的节点或系统里来回传输。
如图,两侧系统主机里是电信号,通过光电转换芯片变成光。发射器共有1.6THz光谱,包括单一光纤上200GHz间隔的8个波长,以及32Gbps发射器眼图,表明信号质量很强。
彩色部分就是光,不同颜色代表不同波长的光,在频率上有足够间隔,这样在调制和解调时不会互相干扰。这些光可以合在一起,在一根光纤上传输,即多波段可以“复用”一根光纤,跟在无线通信领域的频分复用是一回事。
因为光的带宽很大,可以选出一个比较稳定的带宽,把它切成很多个不同的波段,在人眼看来就是不同颜色的光。实际上它们是不同频率的波段,在每一个波段上可以稳定地调制要传输的信号。光电调制后,便是通过光纤传输信号。
宋继强分享了英特尔OCI芯粒的性能演进路线图,技术迭代有3个主要方向:光波的波长数、光纤的传输速率、光纤数量。
一根光纤可分成不同波段去传输,目前能保证稳定传输的是8波段,在每个波段的光里调试上去的数据传输率是32Gbps,可以同时放在一起、互相不影响的光纤对数是8对。三者相乘,就是单向数据传输速度达2Tbps,双向是4Tbps。
未来保持8波段不变,把光纤传输速率提高到64Gbps,单向数据传输速度就翻倍成4Tbps,再往后变成16波段,传输速度就提高到8Tbps。未来可以继续演进,逐步提升带宽。
三、未来还能与GPU集成,剑指!英特尔披露硅光集成路线图,芯粒为未来基建打地桩多重差异性优势拆解相比分离式、插拔式的方案,将OCI芯粒与CPU共封在一起,需要整体上考量热量管理,并在封装层面保证信号传输密度和传输频率。英特尔目前的技术已经能够满足这些需求。
未来OCI芯粒可用于实现通信,还可以跟CPU、GPU、IPU等计算芯片集成。通过硅光集成和先进封装技术,英特尔能够实现更高密度的I/O芯粒,再与其它的xPU结合,未来基于芯粒形成很多不同的计算加互连芯片种类,应用前景可期。
宋继强进一步解释说,后续与其他类型芯片集成的挑战不在技术层面,而在实施层面,需要关注的是带宽密度,比如在光电接口距离有限制的情况下,如何放进这些光电转换的接口?在一定尺寸范围内,能达到的带宽密度是不是足够?
据他分享,为了使OCI芯粒更加灵活,并减少集成过程中的工作量,通常会考虑在主机xPU与I/O之间使用已通过健全的IP生态系统实现标准化的电气接口,如UCIe、PCIe、以太网等。
他也谈及英特尔方案的差异性优势。
首先,英特尔可以量产晶圆级的高集成度激光器,产量和可靠性更高,总成本更低。从理论转化到高良率的生产后,才能形成产业化的能力。
现有外部激光器方案需要用专门的光纤,成本高,且没有规模化部署的案例。片上激光器的好处是用普通光纤就能传输,由于不需要外部光源,因此不需要偏振维持光纤(PMF,一种连接外部光源和无源硅光子集成电路时需要使用的特殊光纤)。
做激光发射器时,做分离器件相对简单。把激光器做在一个晶圆上则存在技术门槛,要能把不同种类的半导体在晶圆层面很好键合,然后通过半导体制作工艺去形成控制电路。包括光源、调制器、放大器、光波导、检测器等光方面的器件,都要能在晶圆层面实现。
其次,英特尔有大批量、经过实际验证的平台,器件具备业界领先的可靠性。
英特尔OCI芯粒基于内部经量产验证的硅光子集成平台打造,该平台自2015年以来为超大规模数据中心内的连接应用交付了超过800万个光收发器模块(包括超过800万个硅光子集成电路和超过3200万个集成激光器),用于传输速率需求达100Gbps、200Gbps、400Gbps的应用。
其可靠性已在数百万个器件上得到验证,数据显示,激光器的时基故障率(FIT)小于0.1,等于说100亿小时才可能出现1次故障。
此外,在两个独立的芯片(硅光子集成电路和电子集成电路)上构建光子和CMOS电路,确保了可扩展性和性能优化,而无需在单个芯片上结合两种截然不同的技术所必需的折衷和权衡。
英特尔在先进封装、系统和平台方面的积累,也使其能够优化光学I/O解决方案。英特尔正在投入研发新的硅光子制造工艺节点,以实现领先的器件性能提升、更高的密度、更好的耦合性和更高的经济效益,还将继续改善片上激光器和光收发器的性能、成本和可靠性。
结语:从技术原型迈向商业化方案在硅光子领域,英特尔研究院已经深耕超过25年,是硅光集成的开拓者和领导者。英特尔在业内率先开发并向大型云服务提供商批量交付硅光子连接器件,并正在与客户合作,以将OCI芯粒技术原型转化为可规模化、商业化的解决方案。
就成本而言,英特尔相信随着时间的推移和产量的提升,在系统层级,光学I/O的每比特总互连成本将可与电气I/O相比。光学I/O性能更强,也有助于在系统层级提高性能。
为实现这一目标,英特尔目前正在开发第二代硅光子制造工艺节点,预计能将芯片面积减少40%以上,功耗减少15%以上,从而提高经济效益,并在光耦合效率、激光功率等方面取得进步。