摘要:大型加速器电源系统可靠工作对整个加速器的长期有效运行具有重要意义,在当前可实施的电源技术下,采用N+1模块化自均衡并联冗余电源可明显提高电源系统的可靠性。本文对这种结构的磁铁稳流电源进行了研发及可靠性分析,并对电源的可靠性进行了估算。结果表明,该电源1 a故障时间(MTTR)比单个模块少1/3;上半年的MTTR小于单个模块的1/2。N+1模块化自均衡并联冗余电源的故障率呈现前期低、后期高的特点,且这种电源在电源可靠度高时能展现更大的可靠性优势,是加速器电源的理想选择。
关键词:加速器;N+1电源;并联冗余电源;可靠性;故障率;MTTR
在大型高能加速器各系统中,电源系统的设备数量最多,在整个加速器可靠性模型中占据重要的位置[1-3],如即将在北京建造的高能光源HEPS(6 GeV),高精度磁铁稳流电源数量超过2 000台[4],其中任何1台电源出现故障,均需停机检修。因此,电源系统的可靠运行直接关系到加速器运行的稳定性和实效性,如何利用现有的技术来提高电源可靠性具有现实意义。提高电源可靠性的途径包括提高器件质量、改进制造工艺、优化拓扑结构及控制方法等。其中,采用N+1模块化自均衡并联冗余电源(简称N+1电源)是最有效的方式。在正常工作状态下,N+1电源的各模块以PN/(N+1)功率运行(PN为电源额定功率),当某个模块发生故障时,剩余模块将以PN/N功率运行[5]。电源通过闭环控制,可较平稳地将故障模块的输出电流自动均衡地平分到剩余模块,保证电源稳定性无明显变化,确保束流不会丢失,节省了电源维修时间。对N+1电源的可靠性评估是一项很有意义的工作,但由于这种电源寿命不服从指数分布,采用传统可靠性评估方法会造成准确性较低。本文通过理论推理和实际电源研发,分析N+1电源的可靠性特点和优势及可靠性评估方法。
1 可靠性理论
可靠性定义为产品在规定的条件下和规定的时间内,完成规定功能的能力。可靠度为可靠性的度量,表示完成规定功能的概率。通常,电子元器件寿命服从指数分布(故障率恒定)[6],其可靠度为:
(1)
其中,λ为元器件故障率,Fit,1 Fit=10-9/h。
MTBF(mean time between failure)又称MTTF(mean time to failure),表示电源无故障时间的期望值,可由数学期望公式[7]得到:
MTBF=Rs(t)dt
(2)
其中,Rs(t)为整个电源的可靠度。当电源寿命服从指数分布时,MTBF=1/λs(λs为整个电源故障率)。
串联模型和并联模型是最常见的可靠性模型。对于拥有n个模块的并联冗余电源,以模块为单位,其可靠性模型为并联模型,可靠度以二项分布的形式确定[8]:
(3)
其中:Rm(t)为电源单个模块的可靠度;λmO为电源单个模块在P/n(P为电源额定功率)功率下运行的故障率;r为保证电源正常工作的最小模块数量。
电源每一模块的可靠性通常为串联模型(即任意1个重要单点故障会导致整个模块故障),其可靠度为:
(4)
其中:Ri(t)为第i个元件的可靠度;λi为第i个元件的故障率。
2 N+1电源的可靠度及MTBF特性
2.1 可靠度特性
N+1电源故障率与其运行功率呈正比[9],当模块以PN/(N+1)功率运行时,λmO=NλmR/(N+1)。由式(3)(n=N+1)可得:
Rs(t)=(N+1)e-NλmOt-Ne-(N+1)λmOt=
(5)
其中,λmR为单个模块在额定功率下运行的故障率。设单个模块MTBF为105 h,图1为式(5)计算得到的几种N+1电源可靠度随时间的变化情况。
2.2 MTBF实时特性
MTBF的通用公式(式(2))是对电源可靠度的广义积分,其结果会将电源0~∞期间的故障率平均化,无法反映MTBF随时间的变化趋势。由N+1电源可靠度公式(式(5))可知,N+1电源寿命不服从指数分布,因此故障率并非均匀分布,故MTBF亦呈不均匀分布。若要考察MTBF具体的变化规律,可将式(5)代入MTBF与可靠度的关系式MTBF(t)=-Rs(t)dt/dRs(t)[7](MTBF(t)为实时MTBF),从而得到式(6):
(6)
N+1电源MTBF(t)随时间的变化情况如图2所示。
图1 N+1电源可靠度随时间的变化
Fig.1 Reliability change of N+1 power supply with time
图2 N+1电源MTBF(t)随时间的变化
Fig.2 MTBF(t) of N+1 power supply with time
2.3 可靠度与MTBF(t)特性的比较
N+1电源故障率呈前期少、后期多的特点,且随N增大,故障率越来越高(图2)。值得注意的是,4+1电源MTBF(t)在t=11 000 h后开始低于单个模块(图2),因此理论上该时刻后电源会比单个模块发生更多的故障,但由图1可知,4+1电源可靠度在t=25 000 h后才低于单个模块。这是因为根据可靠度定义,可靠度虽是t的函数,但只能反映电源在0~t时间段内的总体故障情况,鉴于N+1电源故障率不均匀分布的特点,图1中可靠度曲线无法准确反映电源在t时刻的故障情况。而式(6)中MTBF(t)由微分公式推导而来,反映了电源在极短时间段内(Δt→0)的MTBF情况,所以图2中MTBF(t)曲线则可准确反映电源在t时刻的故障情况,且因时间极短,这段时间内N+1电源故障率可近似看作恒定,其寿命仍然服从指数分布,关系式MTBF(t)=1/λs(t)(λs(t)为电源在t时刻的故障率)依然成立。
3 实验分析
3.1 实验平台
本工作实验电源为3+1电源,电源额定功率为300 W×3=900 W,负载为1 Ω电阻,电源控制采用外环电流环+内环均流环的策略,每个模块采用PWM独立控制。
3.2 实验结果
正常状态下,电源每个模块以225 W功率运行。模块3发生故障后,模块1、2、4以300 W功率运行,如图3所示。图4为模块3发生故障后电流的改变情况,可看出,总电流下降约为800 mA,波动时间约为500 ms,目前尚无方法能做到电流无波动过渡[10-12]。4个模块在额定功率下的工作温度如图5所示,除整流二极管温度为70 ℃外,其他区域温度均在40 ℃左右。
3.3 3+1电源可靠性的计算与分析
1) 3+1电源故障率计算
电源每个模块由172个敏感元件构成可靠性串联系统,包括各种电容、电感、电阻、二极管、光耦、功率管及各类集成电路。故障率是温度的函数,受温度影响很大[13]。根据图5温度分布情况,采用应力法分别计算每个元件的故障率[9],统计结果列于表1。其中,铝电解电容、光耦、功率MOS管、PFC管数量较少,但故障率约占总故障率的2/3,4个功率MOS管和1个PFC管故障率约占总故障率的1/2。计算得到电源单个模块总故障率为λmR=34 183.2 Fit,MTBF(t)=1/λmR≈29 254.14 h。
图3 模块3故障前后模块电流对比
Fig.3 Comparison of module current before and after module 3 failure
图4 模块3发生故障后电流改变情况
Fig.4 Current change after module 3 failure
a——模块平均温度;b——整流二极管温度
图5 4个模块的工作温度
Fig.5 Working temperature of four modules
表1 电源模块的故障率
Table 1 Failure rate of power supply module
2) 3+1电源可靠性估算
根据上述内容分析,可预估出电源的MTBF(t)趋势(图6)。
图6 3+1电源的MTBF(t)趋势
Fig.6 MTBF(t) trend of 3+1 power supply
该电源在1 a内单个模块可靠度R1及电源整体可靠度R3+1分别为:
R1=e-λmR×8 760=0.74
(7)
(8)
3) 实验结果分析
3+1电源及单个模块在1 a内的不可靠度分别为0.18和0.26,故3+1电源在1 a内故障时间(MTTR)比单个模块少1/3。计算可得上半年(t=8 760 h/2=4 380 h)该电源MTTR(6%)小于单个模块(14%)的1/2。可看出,N+1电源在前期可靠度较高时体现出的优势更为明显,这对于可维修电源十分有利。加速器电源系统的年检(如BEPCⅡ通常为60 d)会使电源可靠度保持在较高的水平,延长了N+1电源这种优势的保持时间。该电源连续运行1 a出现故障的可能性较大,建议至少半年检修1次。若由于工艺改进而使该电源单个模块MTBF提升1倍(MTBF=58 508.28 h,λmR=17 091.6 Fit),则该电源单个模块及电源整体在1 a内的可靠度为:
R1=e-λmR×8 760=0.86
(9)
(10)
单个模块MTBF提升1倍后,1 a内3+1电源的MTTR为6%,单个模块的MTTR为14%,电源可靠度和电源在模块MTBF提高前的上半年可靠度相等。电源可1 a检修1次。
4 结论
本文通过理论推导,对N+1电源可靠性评估方法进行了比较和探讨,分析出N+1电源的可靠性特性。结果表明,N+1电源故障率呈现前期低、后期高的特点,这对可维修的加速器电源十分有利。电源可靠度越高,N+1电源可靠性优势越明显。加速器电源通常具有较高的可靠度[14-15],采用N+1电源是十分理想的选择。