本文来自微信公众号“半导体产业纵横”。
领先的芯片制造商开始以截然不同的视角看待工艺节点扩展。
2纳米及更先进工艺节点的推出将需要新的功耗和散热管理方法。但同时,它也将带来更大的设计灵活性,以及更多提升性能和优化成本的选择。
功耗、性能和面积/成本仍然是芯片制造商关注的关键指标,但这些指标的权重和实现方式可能存在显著差异。过去,芯片市场分为两类:一类是用于智能手机和其他移动设备的超低功耗芯片,另一类是面向服务器和高性能即插即用工作站的芯片。但随着人工智能几乎渗透到所有电子产品中,应用变得更加精细化和针对性更强。针对不同数据类型或工作负载,不同芯片制造商或系统供应商的最佳处理单元可能大相径庭。此外,由于电网限制、关键组件或材料的供应不均衡且往往难以预测,以及地缘政治法规等因素,在某一地区行之有效的方案在另一地区可能并不适用。
将系统拆分成多芯片组件,可以优先处理不同的处理器和功能,同时简化在非关键组件短缺时的应急预案。此外,无需将所有组件都塞进最先进的工艺节点上尺寸与光罩大小相同的SoC芯片中,而是可以根据实际情况选择合适的工艺节点来开发不同的芯片。
缩小功能尺寸对某些逻辑电路仍然很重要,但能够扩展到最先进节点的功能在整体设计中所占的比例越来越小。另一方面,只要处理器和内存之间的数据传输速度足够快,能够处理爆炸式增长的人工智能数据,就可以添加更多以芯片组形式存在的晶体管来提升性能。
“具体到2nm工艺,这些复杂的集成系统中可能只有少数部件会采用最先进的技术节点,”Lam Research公司副总裁David Fried表示。“最终会形成一种优化。你需要为系统的每个元件选择最佳技术。过去,我们通过单片集成来优化功耗、性能、面积和成本。而先进封装技术使我们能够针对各个子系统优化功耗、性能、面积和成本。其结果通常是通过异构集成将不同的技术结合起来。芯片组是分层系统集成的自然演进。”
这是一种不同的扩展方法。“如今,许多应用正通过解耦实现优化,”弗里德说道。“它将逻辑与内存分离,将I/O与逻辑分离,并将内存控制器与内存分离。我们目前看到的许多产品都在通过解耦或解耦进行优化,朝着更复杂的高级封装流程发展。这就是他们优化PPAC的方式。”
这将对整个半导体供应链产生深远影响。“我们将带来更大的灵活性和定制化,”Rapidus封装技术现场首席技术官Rozalia Beica表示。Rapidus已获得IBM的2nm工艺技术授权。“我们正在与客户合作开发的一些封装产品将采用2nm工艺,同时也会采用其他一些技术,这些技术可能并不那么先进。我们肯定需要与业内其他公司合作,因为我们不会生产4nm或7nm芯片。我们只提供2nm芯片,并将尽可能与其他代工厂或OSAT厂商合作,将2nm及其他技术应用于封装中。”
这听起来似乎很简单。设计和制造芯片组比设计和制造完整的SoC要容易得多。但将各个组件集成起来却并非易事。
Synopsys工程副总裁Abhijeet Chakraborty表示:“有一种混合设计理念,可以将不同的标准单元混合搭配使用——例如,将高性能标准单元、低功耗标准单元,甚至高密度标准单元混合使用。这样一来,就有了更多类型的标准单元可供选择,EDA工具必须谨慎选择才能最大限度地发挥其优势。如果为了满足高性能计算AI设计中非常高的性能目标而全部使用高性能标准单元,那么就需要付出功耗和其他指标方面的代价。但这种混合搭配至关重要。”
灵活的选项,可定制的指标
这仅仅是个开始。“更有意思的是,”Chakraborty说道,“你可以构建一个同构系统,其中所有芯片都采用2nm工艺。它们必须相互连接。这就带来了先进封装、混合键合、键合间距等方面的挑战和机遇。如何将这些芯片连接起来?芯片间互连技术取得了长足的进步,提高了互连密度和间距,也提升了信号完整性性能。多芯片的另一个优势在于可以混搭。你可以将28nm芯片与2nm芯片混合使用。这是一种缓解成本和良率挑战,以及克服使用这些先进工艺节点障碍的方法。”
至少在初期,这种新型多芯片组件是为大型人工智能数据中心以及高端智能手机和个人电脑市场开发的。将各个组件组装起来并进行各项计算——例如PPA/C(每芯片功耗)、上市时间、设计和验证时间以及在晶圆厂或封装厂的生产时间——需要进行大量的设计和验证工作,包括制作多个测试芯片,并根据技术的应用方式和应用场景进行微调。
“性能和功耗方面的优势确实存在,但并非绝对,”proteanTecs的首席技术官Evelyn Landman表示。“制程节点的转换不再能默认带来线性收益。真正的价值在于系统能够在多大程度上安全地接近硅片的物理极限。这一点在大规模人工智能平台中已经显现,在这些平台上,每瓦性能而非原始频率才是主要制约因素。在2nm制程下,经济效益完全取决于智能的保护频带管理。保护频带过大,投资就会付诸东流;盲目移除保护频带,则会导致可靠性下降。最终的赢家将是那些能够动态、持续地跨工作负载和生命周期测量、理解和管理保护频带的企业。”
这是一个成本高昂且工程量巨大的过程。但对于人工智能数据中心而言,能够在多芯片组件中集成更多晶体管,从而以更低的功耗更快地处理更多数据,无疑是制胜之道。对于高端手机和个人电脑来说,一种芯片设计可以通过大规模生产来分摊成本。因此,尽管开发一款新芯片可能需要花费1亿美元甚至更多,但这或许是可以接受的,尤其是在未来能够复用设计中的许多部分,例如当速度更快或功耗更低的逻辑电路、密度更高的存储器和/或光子互连技术得到更广泛的应用时。
英特尔逻辑技术开发副总裁兼总经理本·塞尔表示:“总体而言,我们在2纳米制程节点上看到的是功率密度稳步提升的趋势。我们在设计一项技术时,关注的指标是功耗、性能和面积/成本。但这不仅仅关乎性能。很多时候,性能取决于每瓦功耗以及面积的缩小幅度。”
英特尔将于2026年1月推出的Panther Lake处理器采用18埃制程工艺。“它在Panther Lake之上集成了一层中介层和多个芯片组,其中计算芯片组采用18A制程工艺,”Sell表示。“我们明年还将推出其他采用更传统封装的产品——并非堆叠式封装,而是多芯片封装。我们目前正在制定后续产品路线图,以涵盖14A制程工艺。Panther Lake是一款客户端产品,但即使在客户端产品中,我们也提供了满足不同需求的各种芯片组。我们有以性能为导向的计算芯片组,同时也注重每瓦性能或能效指标,从而实现良好的电池续航时间。我们还有一个图形芯片组,它更加注重降低功耗以及在功耗和性能之间取得平衡。此外,还有一些芯片组是更传统的芯片组应用,负责与计算系统的其他部分进行交互。最后,还有服务器产品,它们对功耗极其敏感。”
性能提升因节点和代工厂工艺而异,但每个新节点性能和功耗都提升30%的日子早已一去不复返了。
Synopsys的Chakraborty表示:“从设计角度来看,如果客户从3nm工艺升级到2nm工艺,他们期望平均性能提升10%到15%,功耗降低20%到30%,当然,晶体管密度也需要提高15%左右。但挑战在于能否实现这些目标。对于许多注重每瓦性能和更高晶体管密度的应用来说,更低的功耗尤其具有吸引力。Synopsys投入了大量创新和资金,旨在最大限度地发挥2nm工艺的优势。但实际生产中也存在着诸多挑战,影响着良率和制造效率。”
与过去不同,尖端芯片的良率实际上不再完全取决于最终测试。它仍然需要组装成某种先进的封装,并且需要在实际应用中长期保持符合规格。
“在2纳米和18A工艺时代,主要挑战不再仅仅是晶体管尺寸的缩小,”proteanTecs公司的兰德曼表示,“而是硅芯片整个生命周期中的不确定性管理。随着架构向纳米片和新型供电方案发展,器件物理、制造、封装和实际工作负载等各个环节的误差容限都大幅下降。曾经的次要影响,例如局部电压下降、热梯度、老化和工作负载驱动的应力,现在会被持续地、局部地放大。这在早期爬坡阶段已经显现,此时必须从空间和动态两个层面理解其变异性,而不仅仅是统计层面。静态假设和最坏情况保护带已不再足够,因为最危险的情况并非固定的拐点。它们是瞬态的、与工作负载相关的,而且通常在系统运行之前是不可见的。业界正处于一个转折点,必须持续管理正确性,而不是在验收时就想当然地认为一切正常。”
无休止的权衡
要了解这究竟有多复杂,不妨考虑一下性能,它直接影响发热量。人工智能服务器的利用率越高,就越需要高性能逻辑,因为这样可以节省电力。但更高的运行频率也会产生更多热量,这意味着必须想办法散热。如果被动式散热器不足以散热,就需要采用更主动、更耗能的散热方式。
与3nm工艺相比,2nm工艺可以在相同空间内集成更多晶体管。这意味着更高的功率密度,从而能够在相同功耗下更快地完成更多处理。因此,每个新节点都能在给定工作负载下节省功耗。但如果利用率过高,芯片温度会升高到一定程度,导致芯片要么需要更复杂的散热系统(因为在高功率、高晶体管密度和高热密度的芯片内部散热更加困难),要么需要性能降频,而这可能会抵消最初采用2nm工艺的意义。
在20nm之后的每个新制程节点(台积电为16nm,三星为14nm),散热问题都变得越来越难以控制,导致一系列看似永无止境的权衡取舍。虽然鳍式场效应晶体管(FinFET)的引入降低了栅极漏电,但随着晶体管数量的增加,热密度也随之增加。在7nm及之后的每个制程节点,栅极漏电再次成为一个问题,加剧了因动态功率密度增加而导致的散热难题。
栅极漏电问题将再次通过2nm工艺的环栅场效应晶体管(GAIN FET)得到解决,未来某个工艺节点的互补型场效应晶体管(CFFET)以及钼等新型材料甚至二维材料也将再次发挥作用。但如果逻辑利用率过高,功率密度仍将是一个问题。因此,如何利用前沿逻辑电路可能需要在多芯片封装以及系统内数据物理处理或预处理的位置方面做出一些复杂的权衡。
影响经济效益的因素还有很多,例如芯片从最初构思到最终测试所需的时间。“有些客户希望自行设计,而我们则负责提供硅片、封装以及所有组件的集成,”Rapidus的Beica表示。“我们的制造工艺专注于单晶圆加工,不进行批量生产。这使我们能够从每片晶圆中获取大量不同的数据,并将其反馈到设计中。因此,我们可以实现设计和制造的协同优化,结合客户的反馈和我们内部的优化,从而为客户提供所需的定制化服务。而周转时间将至关重要。”
对于人工智能数据中心而言,时间就是金钱,但其经济效益可能与封装内芯片的组合和相互作用一样复杂。逻辑电路可以分解成小芯片,并通过大型硅中介层以2.5D方式连接。但中介层越大,成本越高,信号传输距离越长,对性能的影响也越大。
芯片组也可以堆叠在3D-IC或3.5D封装中,但这需要更长的开发时间。这些组件可以包含CPU、GPU、NPU、TPU或任何其他类型的组件,这些组件可以在相同或不同的工艺节点上开发,但集成需要深入了解每个芯片的物理特性,并进行复杂的平衡。
结论
升级到更高处理节点的原因不再仅仅取决于一两个因素。它们可能因市场细分、工作负载或标准PPA/C指标而异。对于某些应用而言,扩展其中任何一个指标都可能足够,而对于其他应用则需要针对所有指标进行优化。但在越来越多的情况下,最终设计将包含多种节点的组合,以及新的PPA/C权衡方法,以平衡大型系统中的各项优先级。
“回顾过去40年的历史,有些制程节点在功耗扩展、性能扩展或面积扩展方面表现出色,”Lam Research的Fried表示。“但最终,所有这些因素综合起来,才能提升制程节点的价值。面积扩展和性能扩展的速度有所放缓。随着我们迈向这些先进的器件架构,功耗扩展仍然表现良好,而成本扩展将成为制程节点价值的根本驱动因素。如果每片晶圆上的芯片数量能够增加1.7倍,并且还能获得一定的性能和功耗提升,那么这就是制程节点扩展的关键所在。但最终应用决定了你最关心的是功耗、性能、面积还是成本。例如,可穿戴技术对面积和成本的敏感度远高于功耗和性能。或者,如果设备必须依靠电池供电,无需插电,那么功耗将比面积和成本更为重要。”
