专家约稿|功率器件可靠性研究和失效分析的全面解析
功率器件可靠性研究和失效分析的基本介绍邓二平(合肥工业大学 电气与自动化工程学院 230009)摘要:功率器件可靠性是器件厂商和应用方除性能参数外最为关注的,也是特性参数测试无法评估的,失效分析则是分析器件封装缺陷、提升器件封装水平和应用可靠性的基础。可靠性测试项目的规范性、严谨性和可追溯性,对于功率器件可靠性评估和失效分析至关重要,也是保障分析结果全面性、准确性和有效性的基础。本文结合团队多年的可靠性和失效分析研究的相关经验,对研究步骤等进行了基本介绍,旨在为行业的发展提供可能的参考。1、引言功率器件近年来在国内得到了大力发展,尤其是第三代半导体器件SiC MOSFET与新能源汽车应用的结合,迎来了功率器件国产化的重大发展机遇,包括芯片、封装、测试和设备等。而可靠性研究和失效分析则是器件封装后评估器件长期稳定运行的基础,对器件封装改进、可靠性评估等具有重要意义。本文结合团队多年的可靠性研究经验,主要介绍了进行功率器件可靠性研究和失效分析的一些基本步骤、原理和需要注意的事项等,具体测试电路请参考相应的测试标准(如IEC、MIL、JESD和AGQ等测试标准)。功率器件主要包括:Si IGBT/diode, Si MOSFET/diode, SiC MOSFET/diode, GaN器件,目前市场上比较成熟的产品还是以硅基为代表的IGBT器件,电压等级最高可到6500V,电流目前最大到3600A。随着使用开关频率的提升、能耗要求和基础材料的发展,SiC基的功率器件己逐渐成熟,典型的代表是SiC MOSFET,新能源汽车的800V平台正大量使用1200V的SiC MOSFET。进一步地,GaN工艺的不断成熟以及在射频领域的发展经验,目前600V左右的高频开关领域GaN器件非常有优势,尤其是车载充电机(OBC)。不同类型的功率器件具有不同的特性,因此在测试方法和细节上要有所区分,如SiC器件由于栅极的不稳定性以及GaN动态的快速性需要重点关注。2、测试项目分类功率器件的测试一般分为基本特性测试来表征器件性能优良、极限能力测试来评估器件的鲁棒性、可靠性测试来评估器件长期运行稳定性以及失效分析助力器件改进和优化升级,具体如下。2.1 基本特性测试主要包括:静态特性测试(以IGBT为例一般指饱和压降Vces,阈值电压Vgeth,集-射极漏电流Ices,栅-射极漏电流Iges,稳态热阻Rth等静态参数)和动态特性测试(一般指双脉冲测试,包括开通延时时间td(on),下降时间tf等动态参数),其中动态特性测试还可包括安全工作区SOA的测试,有RBSOA和SCSOA。静态特性主要表征模块的一些基本性能参数,是表征模块优良的重要指标,如饱和压降Vces表征器件的导通能力,Vces越小,模块工作过程中的导通损耗越小,相同条件下温升越小。器件加速老化可靠性实验前必须进行模块的基本特性测试,尤其是静态特性测试,一方面确保被测器件功能的完整性,另一方面可用于老化后的对比分析,助力器件失效模式的分析。但一般在可靠性老化测试中不进行器件的动态特性测试,即使是进行栅极老化的高温栅偏实验,一方面是动态特性测试时间很短,封装的老化并不会影响器件的动态特性,另一方面器件的部分动态特性可通过Iges和Vgeth表征,甚至可进行栅极电容的测试来表征。2.2极限能力测试主要包括:短路能力测试、浪涌能力测试和极限关断能力测试,考核的是器件在极端工况下的能力,尤其是关断能力。如短路能力测试主要考核器件在短路(一般有3类短路情况)条件下器件的极限关断能力,一般为10µs能关断电流的数值,主要考核芯片的能力。浪涌能力则是考核反并联二极管抗浪涌能力,一般是10ms正弦半波的冲击,尤其是SiC MOSFET的体二极管非常重要,可能还会影响栅极的可靠性,由于时间较长,主要考核封装的水平。极限关断能力则是考核器件饱和状态下在毫秒级的关断能力,如电网用的直流断路器需要在3ms关断6倍的额定电流。从物理和传热学理论来看,短路测试虽然会有大量的能量产生,最终也是由于能量超过芯片极限而损坏,但由于测试时间非常短,反复的短路测试不会引起封装的老化,而浪涌能力和极限能力测试则将进一步影响封装的老化,是加速老化测试未来应该重点关注的测试。进一步地,极限能力是特种电源等极端应用时需要重要关注的测试。2.3可靠性测试主要包括:功率循环、温度循环、温度冲击、机械冲击、机械振动、高温栅偏、高温反偏、高温高湿反偏和高低温存储等,额外的还包括盐雾等测试。按照应力的来源区分其实可分为电应力加速老化和环境应力加速老化,从器件研发到量产以及应用过程中,需要经过大于10项可靠性测试,机械冲击、机械振动、温度存储等主要考核的是器件在运输或者存储过程中的可靠性,而最重要的测试主要有高温栅偏、高温反偏、高温高湿反偏、温度循环和功率循环。这些实验也是工业界和学术界研究最多,最复杂的测试,尤其是功率循环测试。通过上述加速老化实验,提前暴露器件在芯片设计、封装工艺、样品制备、运输存储、实际应用过程中可能存在的问题,一方面可为器件厂商提供改进建议,优化器件的性能并提高器件可靠性,另一方面可为器件的应用方提供技术指导以及实际产品设计和可靠性验证提供数据支撑。2.4失效分析主要包括:SAM超声波扫描分析、X-ray材料损伤检测分析、SEM电子显微镜分析、光学显微镜分析和有限元仿真分析。SAM超声波扫描分析主要是通过超声波对器件内部各层材料进行探伤,尤其是材料的界面处,当存在一个空洞时,返回的超声波能量和相序发生了变化,即可进行定位。X-ray则更多是用于材料本体探伤研究,多用于材料级的失效分析,SEM电子显微镜和光学显微镜也是一样,但光学显微镜需要打开模块才能对相应的位置进行深入探究。有限元仿真分析是一个除实验外最好的检测、分析和研究手段,通过实验测量数据的对比和修正,完全重现实验过程中器件内部的细节和薄弱点,也是失效分析最难和最为重要的环节。3、可靠性研究步骤可靠性研究的基本步骤如下图1所示,一般需要在可靠性测试前进行一些基本特性测试确保器件的性能以及方便与老化后的进行对比分析,然后进行加速老化等可靠性测试,再进行基本特性测试和失效分析,探究器件的失效模式和失效机理。为了进一步深入探究器件内部各层材料在可靠性测试过程中的应力分布情况,可采用SAM超声波扫描以及有限元分析方法配合进行相应的失效分析。上述可靠性测试中高温栅偏100%与芯片有关、高温反偏约80%情况与芯片有关,也有因为封装老化导致的退化、高温高湿反偏测试也是类似的情况,其他所有可靠性测试均与封装有关,尤其是热特性和机械特性有关。图1所示的基本步骤也只是通用的研究过程,对于具体的问题还需要进行特定的对待和分析。比如大部分情况在可靠性研究中是不会进行极限能力测试的,但如果要研究器件老化对极限能力的影响,则需要进一步考虑,包括多应力的耦合测试。图1 功率器件可靠性测试基本流程这里以Si基IGBT器件的功率循环为例简单介绍一下可靠性加速老化的基本流程和各项参数测试的必要性,如下图2所示。以Infineon公司1200V, 25A Easypack封装的IGBT器件为例进行功率循环的老化测试、寿命评估和失效机理研究等。第I步:确定研究对象,也就是FS25R12W1T4,此封装内有6个开关组成的三相全桥,如下图3所示。上桥臂的IGBT开关共用一个上铜层,下桥臂的IGBT开关均是独立的,这里以U相的下桥臂开关S2为例,减小热耦合影响。S2的上铜层面积与芯片面积相当,热扩散角小,导致散热条件相对较弱,热量会更集中于芯片焊料层。第II步:器件基本特性测试,包括常温下饱和压降Vces (@VGE=15V,Ic=25A,Tvj=25ºC),阈值电压Vgeth (@VGE= VCE,Ic=0.8mA,Tvj=25ºC),集-射极漏电流 Ices (@ VGE=0V,VCE=1200V, Tvj=25ºC),栅-射极漏电流 Iges (@VCE=0V,VGE=20V,Tvj=25ºC),具体条件来源于器件的数据表datasheet。需要说明的是,这里只测试了器件常温下的基本特性,一方面是用于判断器件的性能与好坏,另一方面用于老化后进行对比,常温下的数据即可满足要求。若测试过程中发现某个器件的某个参数超过datasheet里的规定值,则说明此器件是不良品,需要更换新的器件进行测试。进一步地,还可通过此数据来评估各器件间的一致性。第III步:SAM超声波扫描,通过专有设备如SAM301进行器件封装内部各层材料连接状态的检测和参照,将模块倒置于装有去离子水的设备中,超声波从器件的基板开始向下探测,可得到器件各层材料的二维平面图,如下图4所示。此模块没有系统焊接层,因此只展示了器件最薄弱的,也是可靠性测试最为关注和重要的芯片焊料层和芯片表面键合线连接状态,对于新器件而言,各层的连接状态良好。做完SAM后还有一个非常重要的一步,尤其是对于硅胶封装的模块,将模块拿出后必须倒置放置24小时以上,以充分晾干模块内的水分 。进一步地,还需要通过加热板或者恒温箱将器件放置在85ºC环境中至少半小时以上,更加充分的挥发模块内的残余水分以不影响模块的性能。对于TO封装的器件来说,尤其有环氧树脂的充分保护以及环氧树脂吸水性差等特点,加上放置时间很短以及没有高温作用等,可不进行此步骤,但做电学特性实验前必须保证器件表面己无明显水分。在进行热阻等测试前,还需要进行连线,最好通过焊锡连接,以确保连接的可靠性。图2 Si基IGBT器件功率循环测试基本流程 (a) 内部结构 (b) 等效电路图3 FS25R12W1T4模块的内部结构(a) 芯片焊料层 (b) 芯片表面键合线图4 FS25R12W1T4模块SAM超声波扫描结果第IV步:温度关系校准,对于功率器件而言,器件的结温是评估模块电学特性和热学特性最重要的参数,结温不仅可反映模块的散热能力,还可影响器件的电学特性,甚至是可靠性。现在方法中,只有电学参数法测量结温适用并广泛应用于器件可靠性测试中,如热阻测试、功率循环、高温反偏等测试。一般来说,对于低压器件,测量电流选择合适的话,温度校准曲线将呈现完美的线性关系,如下图5所示。可以看到4个器件的曲线均呈现很好地线性关系,虽然在截距上存在一定的差异,但斜率几乎一样,说明芯片的一致性好,此微小差异一般来源于热电源的位置或者加热源的差异,但这种小差异可忽略。图5 FS25R12W1T4的温度校准曲线@IM=100mA第V步:瞬态热阻抗Zth测试,在进行功率循环测试之前,一般为了获得模块内部芯片PN结到散热器甚至环境的热路径情况,以及用于与老化后的状态进行对比,以定位模块失效位置,需要进行瞬态热阻抗Zth测试。通过两次不同散热条件下Zth的测试,也称为瞬态双界面法,可直接获得模块结到壳的热阻值Rthjc,以评估模块的整体性能。将被测器件按功率循环测试的要求安装到测试设备的水冷散热器上,放置好热电偶以以测量相应位置的温度,如壳表面,散热器或环境温度。瞬态热阻抗测试其实相当于一次功率循环,通过给被测器件通过相应的测试电流以加热器件至热平衡状态,降温过程测量器件的结温变化。这里需要注意的是,测试电流越大,测量电路的信噪比越大,测试结果越好,但要保证器件的最大结温不能超过器件允许的最大结温。此器件测量得到的Zthjs如下图6所示,测试条件为升温时间ton=5s, 降温/测量时间toff=40s, 测试电流IL=25A, 水冷温度Tinlet=58ºC, 测量延时tMD=200µs。图6 FS25R12W1T4的瞬态热阻抗曲线,#40器件在功率循环前的结果第VI步:功率循环加速老化测试,做完Zth测试和所有准备工作后,即可进行功率循环的测试,本实验室的测试设备有3条测试支路,每条支路可串联4个器件,共计12个通道,实验过程可以用2条支路或者3条支路。本次测试的器件为4个,每条支路串联2个被测器件,先通过调节测试电流,使得所有器件的结温差在目标温度范围左右,然后再通过控制各个器件的栅极电压来达到精细化和逐点调节。进一步地,通过控制外部水冷的入口温度调整所有器件的最大结温在目标温度范围左右,然后再通过安装条件的修正来达到各个器件的精细化和逐点调节。最终得到的测试条件为升温时间ton=2s, 降温时间toff=2s, 测试电流IL=29.7A, 水冷温度Tinlet=58ºC, 最大结温Tjmax≈150ºC,结温差ΔTj≈90K,测量延时tMD=200µs。功率循环条件设置完成后,只需要在程序中设定相应的保护即可实现完全无人值守运行,保护变量一般应该包括电压Vce保护,电流IL保护,热阻Rth保护,结温Tj保护,水温Tc保护,电源输出保护等。设置完成后的程序运行界面如下图7所示,可看到4个器件的测试条件相应比较接近。值得注意的是,上述测试过程中设置了测量延时,这是由于在半导体器件电流关断时,载流子复合需要时间,尤其是双极性器件。在这个延时时间里,芯片的结温其实是持续下降的,这就导致我们在延时时间tMD后测量的结温并不是器件真正的最大结温,而存在一定的误差,需要通过一些方法进行修正,如根号t方法,具体这方面的内容需要参考相关论文。而此结温的误差将会导致器件的寿命数据存在一定的差异,需要通过现有的模型进行相应的修正。进一步地,我们也看到不可能使得所有器件的数据完全一致,达到我们的想要的测试条件,最终在进行寿命对比时,需将所有器件的条件均归一到同样的条件以保对比的公平性和数据的正确性,如下图8所示。图7 功率循环运行界面示意图图8 功率循环寿命数据第VII步:瞬态热阻抗Zth测试,当模块老化到一定程度或者达到失效判定条件后,需要停止功率循环测试,对其进行瞬态热阻抗测试,进一步准确定位老化位置。测试条件与功率循环前一致,下图8列举了#40器件在不同功率循环次数条件下的测试结果,可以看到,随着老化程度的增加,器件的热阻增加。进一步地,可以看到在模块功率循环前没有经过老化(No.68)时,整个曲线均较小,当老化到一定程度后(No.76888),热阻增加不是非常明显,可以理解为裂纹的形成过程。当功率循环加速老化持续进行(No.91522),这个过程为焊料裂纹生长过程,热阻增加非常明显。图9 #40器件功率循环前后Zthjs结果对比第VIII步:SAM超声波扫描,将功率循环测试后的器件,利用原有的参数设置进行SAM超声波扫描,通过对比可得到器件芯片焊料层和键合线的老化状态,利于器件的失效模式和失效机理研究。下图10展示的是#40功率循环老化后IGBT芯片焊料层和芯片表面键合线的连接状态,可以看到芯片焊料层出现了白点,有严重老化的迹象,这也与图9的结果相吻合。而键合线的状态由于焊料的老化,改变了超声波的路径,使得键合线的状态很难识别,从实验结果来看并没有发生严重的老化。(a) 芯片焊料层 (b) 芯片表面键合线图10 #40器件功率循环老化后的SAM结果值得说明的是,图中的S3和S6也出现了老化是因为之前做过不同ton的实验,但也可以看到S2和S6的老化程度和现象比较一致,更集中于中心区域,而S3则比较均匀,这是由于S3具有更大的散热面积,使得S3焊料的温度分布更均匀。这里想给大家展示的是如何通过SAM图来获得相应的老化信息,要有全局观念,要知道整个实验的计划、过程、细节和数据等,才能给出更为准确的结论。第IX步:器件特性参数测试,完成器件的SAM测试后,仍然要将器件放置干燥处理后才能进行相应的电气特性测试,采用相同的实验条件对上述参数进行测量。一般情况下,上述参数在功率循环老化后不会发生变化,SiC MOSFET由于栅极可靠性问题可能会存在一定程度的阈值电压偏移。同时,Si IGBT一般也会存在轻微的阈值电压偏移,而且是负偏移,但一般在5%以内,这也侧面说明利用阈值电压作为温敏参数可能存在的误差。一般器件的温敏关系约为-2mV/ºC,假定器件的初始阈值电压为5V,则电压偏移25mV,最终导致约12 ºC的误差。第X步:有限元仿真分析,没有仿真解释和验证的实验数据是不可信的,因为实验数据很大程度依据于测试人员、经验、测试方法、测试条件等各方面因素;而没有实验验证的仿真分析也是不可信的,能否解释实际现象很关键。因此,有限元仿真分析其实与实验是相辅相成的,仿真的第一步必然是建立仿真模型,并修正和验证仿真模型的有效性。对于功率循环来说,考核的主要是器件封装在往复周期性温度变化过程中的热应力,因此,模块的热流路径至关重要,可通过瞬态热阻抗来修正模型。下图11为仿真和实验获得的模块S2瞬态热阻抗曲线,仿真与实验结果有非常高的吻合度,最后的些许差异来源于不同的安装条件,从两个实验结果也可看到。图11 S2的瞬态热阻抗曲线对比实验验证后的有限元仿真模型就具备与真实器件相同的热流路径了,可以用来进行功率循环仿真分析。这里值得一提的是,对于功率循环的功率循环仿真分析,必须使用电-热耦合仿真,一方面是纯热仿真没有芯片的电热耦合作用,另一方面是纯热仿真没有键合线的自发热现象,这会导致仿真结果的偏差。这里以S2和S3的有限元仿真来进行说明,下图12为功率循环仿真的结温变化曲线,芯片的结温提取的是芯片表面平均温度,这是与VCE(T)方法获得的值最接近的表征。仿真所用的条件均来源于实验测量结果,仿真过程与实验测试过程一样,通过调整芯片的电导率来获得不同的功率最终达到相同的结温差,调整环境温度来达到相应最大结温。(a) S2在不同ton条件下仿真的结温曲线 (b) S3在不同Tjmax条件下仿真的结温曲线图12 仿真得到的结温曲线获得与实验相同的结温后就可以进行器件内部更为细致和全面的分析,下图13为S2和S3在相同的功率循环条件下芯片表面的温度分布,由于铜散热面积的差异,导致温度分布有所差异,最终导致失效位置发生了变化,如图10所示。因此,通过电气参数的测试可以知道器件的整体变化情况,但无法定位到具体位置,而通过SAM超声波扫描则可获得基本位置信息,但无法准确分析其原因以及产生的机理。最终通过有限元仿真可以得到器件内部更为细节的信息,实现对器件的失效机理研究和封装结构优化。但最为根本的是要把握器件的所有信息,结果能进行相互验证,缺一不可。(a) S2, ton=2s, ΔTj=89.5K和Tjmax=147.7˚C (b) S3, ton=2s, ΔTj=90.9K和Tjmax=152.1˚C图13 芯片表面温度分布4、总结上述以功率循环为例详细描述了需要进行的哪些实验、步骤和原理,严格按照上上述实验步骤再加上一些经验基本上就具备了全面分析功率器件老化失效的能力。但要达到更高水平,尤其是能在做实验过程中主动解决所有遇到的问题,还需要更为细致和深入的学习,其中最最最为核心的就是要把握每个测试的基本原理。只有把握了这些参数、测试的基本测试原理,逻辑思路和功率器件的基本物理过程,才能更深刻的理解一些问题,并解决实际中遇到的问题。主要参考文献[1] MIL-STD-883G, United State420_20220614.jpg" style="margin: 0px padding: 0px border: 0px max-width: 100% color: rgb(51, 51, 51) font-family: " hiragino="" sans="" microsoft="" helvetica="" text-align:="" text-indent:="" white-space:="" background-color:="" max-height:=""/