Chiplet,正在改变芯片制造

随着行业从平面SoC向多芯片系统转型,工程挑战不再局限于单个芯片的边缘。性能、可靠性和良率如今取决于多个芯片在先进封装内的协同工作方式、如何利用互连技术的组合进行数据优先级排序和传输,以及日益开放的生态系统所带来的影响。

本文来自微信公众号“半导体行业观察”。

Chiplet带来的改变远不止架构,它们还在改变芯片的制造方式。

随着行业从平面SoC向多芯片系统转型,工程挑战不再局限于单个芯片的边缘。性能、可靠性和良率如今取决于多个芯片在先进封装内的协同工作方式、如何利用互连技术的组合进行数据优先级排序和传输,以及日益开放的生态系统所带来的影响。

Chiplet的出现正迫使人们对整个设计流程进行根本性的重新思考。当设计、验证、封装、测试和可靠性决策从一开始就相互影响时,线性开发方法已不再适用。专家一致认为,Chiplet时代的成功取决于结构化的工作流程,这些工作流程能够尽早将建模、分析、验证和制造决策联系起来——在流片或组装阶段出现代价高昂的问题之前。为什么这些工作流程如此重要?它们必须包含哪些内容?人工智能又是如何开始提升这些工作流程的效率的?

“先进封装、2.5D和3D架构的复杂性不容忽视,企业的工作方式也正在发生转变,”西门子EDA部门负责热管理和可靠性的3D-IC解决方案架构师Andras Vass-Vernai指出。“几年前,封装对于可靠性至关重要。几年前的一次会议上,有人吹嘘说,大家之所以能用上最新的电子产品和手机,完全是因为小型化,而小型化之所以成为可能,是因为一些机械工程师解决了热管理问题。但他们当时的做法总是非常孤立。他们从未真正与芯片设计师和封装的电气设计师合作。他们各自讨论各种规格和设计目标,然后各自为政。先进封装改变了这一切,因为你需要尽早了解自己做出的决策是否正确。”

Chiplet工作流程涉及诸多考量,而不同半导体生态系统参与者的视角也各不相同。“在我们传统的单片ASIC设计视角下,我们将其视为二维结构;而Chiplet则不同,因为它是分层的,所以是2.5维甚至三维结构。”Expedera软件工程总监Prem Theivendran指出,“大多数问题都源于互连,这对从事Chiplet设计的人来说简直是噩梦。此外,还有机械问题、机电问题、电热问题以及信号完整性问题。这三者的建模是一个多物理场问题。”

作为一家IP设计公司,Expedera并不创建模型,但它曾为一些Chiplet客户研究过这个问题。“我很高兴他们更加重视这些问题。这意味着我们必须正确设计NPU和接口,因为不再是标准的AXI接口,这就引出了如何降低总线延迟的问题,”Theivendran说道。“在Chiplet方面,它完全符合UCIe标准,采用类似SerDes的接口,频率非常高等等。但不再需要传统的AXI接口,那么我们该如何接入呢?这就是我们NPU需要改变的地方。”

在此背景下,实际问题就变成了设计团队应该如何调整设计方案以适应这些新的限制。对许多团队而言,这意味着用专为跨芯片设计、封装和测试而构建的工作流程来取代零散的交接环节。

“在传统的单芯片设计中,如果出现局部缺陷,你只会报废一个芯片,”Silvaco旗下公司Mixel的AMS高级经理Long Thanh(Kevin)Bui表示。“但在Chiplet架构中,一个互连故障或一个I/OChiplet缺陷就可能毁掉一个极其昂贵的完整封装。因此,工程团队需要统一的工作流程,因为封装本身就是一个系统。他们必须协调复杂的多芯片交互,并在实际流片之前尽可能减少故障。”

在芯片设计中,结构化工作流程至关重要,原因有以下几点。“首先,复杂性呈爆炸式增长,”Bui说道。“多芯片系统会增加故障点,从互连和热耦合到翘曲,不一而足。手动或脱节的流程会导致交互缺失、返工和缺陷。其次,跨领域协调至关重要,涉及架构、封装、测试、可靠性以及多供应商供应链。第三,可扩展性和可重复性至关重要。芯片设计旨在实现跨产品复用,因此工作流程能够实现模块化、标准化的流程,而非一次性工作。第四,降低风险。早期预测建模和设计内分析可以在流片前发现问题。分层测试和知识定义设计(KGD)有助于确保只组装已知良好的组件。第五,提高效率至关重要,因为建模、分析和验证步骤之间的自动化转换可以减少错误、加快迭代速度并促进协作。”

换句话说,关注点已从芯片内部设计转移到跨芯片行为。“关注的边界已从芯片内部转移到芯片之间的接口。像UCie这样的新标准推动工作流程从专有、封闭的系统扩展到开放的生态系统,在这个生态系统中,来自不同供应商的芯片必须可靠地协同工作。先进的封装技术——包括2.5D/3D封装、中介层和混合键合——也引入了新的物理现象,例如应力、热梯度以及凸点间距和材料等变量,”他说道。

在芯片设计中,工作流程意味着什么?

在半导体工程中,工作流程是指从概念到芯片,再到整个产品生命周期中,可重复的、端到端的工程步骤、工具、数据和决策门序列,旨在确保可靠性。

同时,Chiplet工作流程是一个并行协同设计的循环,它持续验证多个独立芯片封装成单个高性能系统时的功能、电气和物理完整性。“对于Chiplet而言,稳健的工作流程至关重要,”Bui说道。“与传统的单芯片SoC不同,后者可靠性主要局限于单个芯片,而Chiplet系统引入了全新的复杂性:多个芯片、高密度互连、先进封装以及系统级行为。可靠性不再仅仅是芯片级的问题,它已成为一个真正的系统级挑战,涉及多个领域和学科。”

其他专家也认同这一观点。“当我们谈到芯片可靠性时,我们主要关注四个核心领域——散热、机械、电源完整性和信号完整性,”Synopsys首席产品经理Lang Lin表示。“在芯片设计能够自信地流片之前,这四个方面都需要进行评估。实际上,这意味着要使用一个整体的EDA工作流程,将这四个方面结合起来进行分析。工程师们依靠多物理场求解器来研究散热、机械、电源和信号影响之间的相互作用,因为这些问题都不能再被视为孤立的问题了。现代流程兼具多物理场和多尺度特性,使团队能够评估系统中不同的物理效应,并识别出最坏的情况。例如,一个芯片可能因为散热不足导致温度过高而失效,而另一个芯片则可能因为距离电源过远而出现电源完整性问题。”

这是一个复杂的多物理场问题。“我们通常从一个初始状态开始。芯片处于室温,电源电压为标称值,信号以预期的数据速率运行,封装没有明显的应力或翘曲,”林解释说。“但一旦芯片开始工作,所有这些条件都会同时发生变化。随着温度升高,漏电功率增加,从而导致总功耗上升。更高的温度还会降低芯片的运行速度,因为延迟会增加。同时,加热还会导致一些机械问题,例如热膨胀系数不匹配和芯片翘曲。这些影响都不是独立发生的,它们同时相互作用,这就是为什么解决芯片可靠性问题会成为一个复杂的工程难题。”

对于芯片架构师来说,这一切都需要大量的协作,因为它涉及多个环节。“有接口人员,有标准制定者,有我们负责的IP设计,还有系统级测试,”Expedera公司的Theivendran说道。“所以,要使用合适的组件并确保端到端的正常运行,现在涉及到多个环节。此外,还有验证环节。你必须提供一个基于UVM的基础设施测试平台、驱动程序、监视器等等,仅仅是为了模拟我们的环境,因为现在我们就像芯片内部的一个微型芯片。它不仅仅是一个标准的IP,它包含更多东西。它就像一个真正的芯片,有着不同的约束条件。”

这与传统的平面SoC工作流程截然不同。“如果我们正在构建一个系统,那么工作流程将包括架构设计、测试、系统级测试、模块级测试,然后逐步向上——最终进行网表分析、门级测试和功耗分析,”Theivendran说道。“验证工作量大大增加,但我们无法进行系统级测试。我们只能进行模块级和IP级测试。因此,它看起来像是传统的工作流程,但实际上多了更多步骤和需要考虑的细节。”

Chiplet工作流程必须包含哪些内容?

根据Mixel公司的Bui的说法,由于堆叠芯片在物理和电气方面相互依赖性很强,因此一个稳健的Chiplet工作流程必须涵盖几个不同的任务。Chiplet工作流程的核心组件包括:

  • 多物理场签核。由于芯片间距很小,工作流程必须同时分析热应力、机械应力和电应力。逻辑芯片上的热热点会导致机械翘曲,从而降低相邻芯片上敏感的模拟/混合信号电路的性能。
  • 电源和信号完整性(PI/SI)。芯片间高速传输的数据不能出现质量下降,这就需要模拟芯片间微小连接的电磁行为。
  • 互连可靠性。工作流程必须考虑连接芯片的凸块和中介层,包括电迁移和应力引起的空洞。
  • 已知良好芯片和已知良好堆叠(KGD/KGS)。严格的测试方法应采用内置自测试和通道修复逻辑,在组装前后绕过损坏的互连。

微信图片_2026-05-15_110153_865.png

多物理场协同设计是不可或缺的。“Chiplet设计本质上就是多物理场问题,”是德科技EDA总经理Nilesh Kamdar表示,“垂直堆叠的芯片之间会产生热量上升。跌落或振动造成的机械应力会影响焊点连接和电气性能。在数据中心应用中,共封装光学器件会将光学物理引入到已经需要处理电气和热交互的堆叠结构中。这些因素都无法孤立地建模。出于电气性能考虑而选择的材料可能会使散热管理更加复杂。优化散热性能可能会影响机械稳定性。必须对整个系统进行分析。想想智能手机在尝试连接微弱信号时过热会发生什么。过多的热量会加速电池电量的消耗,迫使无线电模块更加努力地工作,从而产生更多热量。在Chiplet堆叠中,这种反馈回路会同时发生在多个芯片、材料和物理域中。”

验证工作更增加了挑战。“传统的模块级验证方法是为单芯片系统设计的,无法考虑跨多个芯片、工艺节点和封装层的交互作用,”Kamdar指出。“有效的验证需要从一开始就从系统层面进行考量,在确认整个芯片堆叠组装完成后性能是否仍然有效之前,先对每个芯片进行单独测试。例如,热效应和串扰在组件层面是不可见的,只有在对整个系统进行建模时才会显现出来。硬件辅助环境可以发现静态分析遗漏的时序和互操作性问题,但这只有在仿真能够与设计保持同步的情况下才能实现。”

仿真还有其他需要考虑的因素。“如果你只是想构建一个仿真模型,那就会比较复杂,”西门子EDA的Vass-Vernai说道。“你需要对工具、网格划分技术、物理学等方面有深入的了解,这有时需要多年的经验积累。我们一直致力于让这些工具普及化。例如,如果你仅仅从半导体仿真的角度来看这些工具,你会发现,其核心理念是创建一个类似电子表格或输入框的东西。你输入标准封装样式的所有细节。然后,工具会构建模型、进行网格划分并进行配置。我们一直在努力降低仿真的门槛。在芯片堆叠方面,这一点尤为重要,因为你需要确保电气设计师能够快速做出决策。问题在于,这种基于电子表格的输入模板已经不再适用,因为封装不再标准化。这取决于你使用的技术、你的工程技能、你的想象力以及你构建的封装架构类型。我们仍然需要降低仿真的门槛,但我们可以用我们熟悉的方式来实现。”

与此同时,这也推动了封装数字孪生技术的开发。当架构师定义布局、芯片布局、堆叠方式、中介层材料、连接方式和网表时,他们实际上已经生成了仿真所需的大部分机械信息。与其构建单独的仿真工具并依赖仿真工程师后续重建模型,不如将这些电气定义转化为多物理场模型。虽然仍需进行一些设置,例如材料属性、功率分配和边界条件,但目标是尽可能简化流程。这样,电气封装设计人员就可以在工作流程的早期阶段,利用其初始设计生成数字孪生的热力学或热机械版本。

人工智能如何重塑工作流程?

将人工智能融入Chiplet工作流程也能产生显著影响。“在预测建模和分析方面,人工智能可以改进热力学和机械仿真、测试中的异常检测以及良率预测,”Mixel的Bui表示。“它可以处理海量的多物理场数据集,从而更早、更准确地预测热点、翘曲和故障风险。在自动布线方面,人工智能可以帮助自动完成Chiplet之间数千个微凸点的复杂布线,同时最大限度地减少干扰。在验证和调试方面,人工智能可以加速回归测试、根本原因分析和分层测试。它还可以对互连行为进行建模,并帮助生成KGD和芯片间链路的测试模式。”

人工智能的发展日新月异,就连术语也在不断演变。“我们现在不太喜欢用‘脚本’这个词了,”Vass-Varnai指出,“我们仍然在编写脚本,但现在我们谈论的是自动化。说到自动化,谷歌不再是创建脚本,而是在这些工具之上创建人工智能代理,并教会这些代理如何运行不同的工具以及如何创建流程。这就是我们的发展方向。我们还有另一个计划,将自动化与生命周期管理(LLM)相结合,因为实现这一目标的最佳方式是能够用自然语言提示工具,解释你想要哪种类型的软件包,包含哪些组件,并与你的助手协作,帮助你完成设计。这显然是我们前进的方向。我知道我们所有的竞争对手都已经在做这件事了。我认为目前还没有人真正做到,但竞争非常激烈,谁能做得最好,谁就能最终胜出。”

事实上,整个EDA行业的核心在于工作流程。“要运行EDA,你需要设计数据;有了设计数据,你就可以运行各种工具,生成更多数据,再运行更多工具处理这些数据,然后你还需要更多工具来处理这些数据,”IC Manage首席执行官Dean Drako指出。“这就是你的工作流程。现在,我们正在利用智能AI增强工作流程,也就是在工作流程中使用智能AI来进行IP生命周期管理。通过AI增强功能,新的特性使得系统组件/IP的重用更加快捷方便,因为它用打包、支持和发现等工作流程取代了大量手动操作,工程师可以快速找到所需组件/IP,判断其是否符合要求,并在必要时进行调整,或者使用我们为他们开发的AI进行验证。”

此外,人工智能代理可以基于大量模拟进行快速预测。“有些公司已经完全实现了这一点,”Vass-Varnai补充道。“我们内部也有一些工具,正在考虑将其添加到我们的工作流程中。如果你想训练人工智能,你需要结构良好、干净的数据,我们也提供数据管理服务,可以帮助你实现这一点。但即便你实现了这一点,最好还是能够使用来自多家公司的多轮设计数据来训练人工智能。”

Synopsys产品管理高级总监Matt Commens也认为,人工智能将迅速重塑芯片可靠性工作流程。“设计创建、设置以及运行过程中的许多环节都将通过智能代理来实现。每个人都希望工作流程自动化,因此我们参与了一些项目,与特定客户合作,为特定活动构建高度自动化的工作流程。当然,我们也一直在改进自身的工作流程,以实现更多集成,例如多物理场工作流程。客户希望工作流程能够高度契合他们的应用需求。人工智能将很快接管这些工作,我们已经看到了这种趋势。Ansys(现已更名为Synopsys)早在四五年前就主动启动了API优先战略,当时ChatGPT还未问世。我们之所以率先采用API优先战略,是为了构建工作流程。在我们与客户合作的一个项目中,为了实现高度自动化,我们构建了一个名为PyAEDT的API。它是开源的,托管在GitHub上,并且有完整的文档。它非常活跃,所有语言模型都知道如何使用它进行编码,因为它们都是基于PyAEDT进行训练的。”

不过,科门斯并不认为会一夜之间全面转向人工智能驱动的工作流程。“这将是一个渐进的过程,”他说道。“设计界不可能在一夜之间放弃现有的方法。团队目前都在使用既定的工具、流程和习惯,而且还受到业务方面的限制。随着工作流程变得更加自动化和复杂,人工智能的使用将需要更多的计算资源和能源。整个行业需要解决数据中心容量和电力是否足以满足这种需求的问题。因此,尽管目前存在一些实际的限制,但发展方向是明确的。”

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论