• 全国 [切换]
  • 深圳市鼎达信装备有限公司

    扫一扫关注

    当前位置: 首页 » 新闻动态 » 真空技术 » 正文

    多元素LIBS分析的标准化交叉验证及其优化

    放大字体  缩小字体 发布日期:2021-11-02 10:56:34    浏览次数:8    评论:0
    导读

    摘 要交叉验证是用于验证模型性能的一种统计分析方法, 可避免由训练集与测试集重合引起的过拟合。 进行交叉验证时通常使用交叉验证均方根误差(RMSECV)的均值来表征多元素的分析准确度。 但对于激光诱导击穿光谱(LIBS)用于多元素分析的情况, 发现各元素的RMSECV与其在样品中的浓度范围可近似用线性关系表述, 由于不同元素

    摘 要 交叉验证是用于验证模型性能的一种统计分析方法, 可避免由训练集与测试集重合引起的过拟合。 进行交叉验证时通常使用交叉验证均方根误差(RMSECV)的均值来表征多元素的分析准确度。 但对于激光诱导击穿光谱(LIBS)用于多元素分析的情况, 发现各元素的RMSECV与其在样品中的浓度范围可近似用线性关系表述, 由于不同元素在样品集中的浓度范围差异很大, 不同元素之间的RMSECV差异较大, 实验中C与Cr在样品集中的浓度范围差异为28.11倍, 其RMSECV差异达到8.96倍。 发现RMSECV均值对于个别元素过于灵敏, 在数据优化过程中, 可能导致其不能反映大多数元素的分析准确度变化趋势。 为减小RMSECV均值对不同元素的灵敏度差异, 更全面地表征多元素的分析准确度, 提出了多元素的RMSECV标准化方法, 即将各元素的RMSECV与该元素在样品集中的浓度范围相除, 并引入标准化交叉验证均方根误差(SRMSECV)的概念。 LIBS检测受测量条件波动(如激光脉冲能量、 振动等)等不确定因素的影响, 会引入异常光谱, 并对分析准确度产生负面影响。 为通过滤除异常光谱来提高多元素分析准确度, 利用光谱面积筛选对光谱数据进行预处理, 以同一样品下各张光谱的面积中位数为中心, 选定某一光谱面积区间, 舍弃该区间之外的光谱, 并使用余下光谱用作定量分析。 在此基础上, 通过对0.5 Pa真空环境下的10块Ni基合金中的14种元素成分进行的多谱线内标法定量分析展开实验验证。 标准化后各元素RMSECV的相对标准差(RSD)由68.7%减小至48.9%, 元素间的RMSECV的最大差异由8.96倍降低至3.93倍, 表明SRMSECV均值能够较全面表征多元素的分析准确度, 从而有利于实现定标曲线的全自动优化。 在优化面积筛选跨度下, 各元素定标模型的决定系数(R2)均值与SRMSECV均值都得到一定程度的改善, 证明光谱面积筛选对于提高多元素分析准确度的价值。

    关键词 激光诱导击穿光谱; 标准化交叉验证; 光谱面积筛选; 多元素分析

    引 言

    激光诱导击穿光谱由于无需样品预处理, 检测速度快, 且能够实现多元素实时在线检测, 已在工业生产、 环境监测、 食品安全、 垃圾回收等多个领域得到广泛应用[1-7]。 交叉验证的基本思想是通过对样本进行多次划分, 每次将部分样本用于训练模型, 而剩余样本用于测试模型, 直至将所有样本既用作训练, 又用作测试, 再将所有结果合并用于估计泛化误差[8]。 近年来, 交叉验证在激光诱导击穿光谱(laser-induced breakdown spectroscopy, LIBS)定量分析领域已有所应用, 并取得良好效果。 Labutin[9]等对碳锰钢中的C进行了检测, 并使用主成分回归方法进行定量分析, 主成分个数为4时, 对C的交叉验证均方根误差(root mean square error of cross-validation, RMSECV)为0.045%。 Cama-Moncunill等[10]利用偏最小二乘算法对奶粉中的Ca进行定量分析, 并分别对定标模型进行交叉验证与外部验证, 对Ca的RMSECV为0.062%, 外部验证均方根误差为0.068%。 谷艳红等利用偏最小二乘算法对钢合金中的Ni和Cr进行定量分析, 对两种元素的平均预测相对误差分别为6.349%与5.940%。 陈添兵等[11]先使用多元散射校正方法对猪肉的LIBS光谱进行预处理, 再对其中的Pb进行定量分析, 其RMSECV为0.302%。

    进行交叉验证时通常使用各元素的RMSECV均值来评价对多元素的分析准确度, 但将LIBS用于多元素分析时, 不同元素的RMSECV大小存在较大差异, 导致以RMSECV均值为评价指标进行数据优化时, 容易淹没某些RMSECV较小元素的分析准确度的变化趋势。 另外, 人们往往通过重复测量以期减小随机误差。 但是, 重复测量过程中受测量条件波动等不确定因素的影响, 会引入异常光谱, 对分析准确度会产生负面影响。

    本文提出了多元素的RMSECV标准化方法, 并引入标准化交叉验证均方根误差(standardized root mean square error of cross-validation, SRMSECV)的概念, 可有效缩小元素间RMSECV的差异, 更全面地表征多元素的分析准确度, 从而在数据优化过程中体现多数元素的分析准确度的变化趋势。 此外, 通过光谱面积筛选, 有效滤除LIBS检测中存在的异常光谱, 并使各元素的定标模型的决定系数(coefficient of determination, R2)均值与SRMSECV均值都得到一定程度改善。

    1 实验部分

    对10块Ni基标样进行了检测气压维持在0.5 Pa左右。 所使用的Nd∶YAG激发光源(GKNQL-1064-10, 北京国科世纪激光), 输出波长为1 064 nm, 脉冲能量为55 mJ, 脉宽为20 ns, 重复频率为5 Hz。 调焦系统将激光与等离子信号探测系统的焦点汇聚于一点, 并具有同步变焦功能, 实验中输出镜至样品表面距离固定为1.8 m。 四通道型光纤光谱仪(AvaSpec-Desktop, Avantes)波长范围为190~557 nm, 分辨率为0.04 nm, 受激光器触发, 积分时间为1.05 ms, 积分延迟为0.6 μs。 实验对每块样品均进行500个脉冲的测试, 为减小光谱仪的读数误差, 每累计50个脉冲输出一幅光谱, 输出结果为50次测试的均值, 即对每个样品共获得10幅经平均的光谱。

    图1 实验装置示意图

    1: Nd∶YAG激光器; 2: 光束折转系统; 3: 分光镜;

    4: 变焦透镜组; 5: 中频炉; 6: 样品; 7: 收集透镜;

    8: 光纤; 9: 光纤光谱仪; 10: 计算机

    Fig.1 Schematic diagram of the experimental setup

    1: Nd∶YAG laser; 2: Beam turning system; 3: Spectroscope;

    4: Zoom lens group; 5: Intermediate frequency furnace;

    6: Sample; 7: Collecting lens; 8: Optical fiber;

    9: Fiber optic spectrometer; 10: Computer

    实验样品集由10块Ni基合金(安泰科技)组成, 表1给出了各元素在其中的浓度范围。

    表1 样品集中各元素的浓度范围(Wt%)

    Table 1 Concentration range (Wt%) of each element in the sample set

    2 各元素定标模型及分析准确度

    先利用多谱线内标法根据10块Ni基样品的光谱信息构建定标模型, 并选出各元素R2较高的一定数量的特征谱线对, 继而通过留一交叉验证对各定标模型的性能进行测试, 最终选用各元素RMSECV最低的定标模型。

    进行交叉验证时, 常使用RMSECV来表征定标模型的好坏, RMSECV越小表明定标模型对测试集样品中的元素含量的分析准确度越高, 其计算公式如式(1)

    (1)

    式中, ci为被选为预测集的第i个样品的参考浓度值,为根据去除第i个样品后建立的定标模型所预测的第i个样品浓度值。

    使用多谱线内标法构建的各元素定标模型所选用的分析线组与内标线组如表2所示, 其中内标元素均选用基体元素Ni, 各定标模型的R2与RMSECV如表3所示。

    3 SRMSECV定义及分析准确度表征

    进行交叉验证时, 通常根据RMSECV的大小来估计定标模型的泛化误差。 但是, 多谱线内标法构建的定标模型的RMSECV的元素间差异较大, 实验中C与Cr的差异高至8.96倍, 导致RMSECV均值无法较全面地表征多元素的分析准确度。 因此, 将RMSECV均值选为数据优化的评价指标时, 可能不能反映大多数元素的分析准确度的变化趋势。

    表2 各元素定标模型所选用的分析线组与内标线组

    Table 2 Analysis lines combination and internal standard lines combination of each element’s calibration model

    表3 各元素定标模型的R2与RMSECV

    Table 3 R2 and RMSECV of the calibration model for each element

    本文发现, 不同元素在样品集中浓度范围的差异是造成元素间RMSECV差异的重要因素。 利用多谱线内标法构造定标模型, 即是利用最小二乘法对某元素的特征谱线对的强度与其在样品中的浓度进行拟合。 当样品中某元素浓度等于该元素在样品集中的浓度均值时, 对浓度的回归值等于基准值, 定标模型在理论上对该元素浓度的预测偏差为0; 浓度偏离浓度均值越大, 回归值与基准值的偏差越大, 预测偏差也越大。 为证明RMSECV与浓度范围间的相关性, 使用最小二乘法对其进行拟合验证, 结果表明RMSECV与浓度范围间可近似用线性关系表述, 其R2为0.7327, 如图2所示。

    图2 RMSECV与元素浓度范围的线性最小二乘法关系曲线

    Fig.2 Linear least square curve between RMSECV and concentration range of each element

    为此, 提出标准化交叉验证均方根误差(SRMSECV), 其计算公式由式(2)给出

    (2)

    式中, CS为某元素在样品集中的浓度跨度, 其他参数的定义在介绍RMSECV时已给出。 由于RMSECV的单位与浓度跨度相同, SRMSECV是无量纲参数。 图3给出了各元素标准化前后的RMSECV, 由于RMSECV与浓度跨度具有较高的线性相关性, 标准化后各元素RMSECV的相对标准差(relative standard deviation, RSD)由68.7%降至48.9%, 其均值对不同元素的灵敏度差异显著减小, 元素间的RMSECV最大差异由8.96倍降至3.93倍。

    图3 各元素的RMSECV及SRMSECV

    Fig.3 RMSECV and SRMSECV of each element

    RMSECV均值对于个别元素过于灵敏, 在数据优化过程中, 可能导致其无法反映大多数元素分析准确度的变化趋势。 以各样品的光谱面积中位数(后文统称S)为中心, 在(0.977 5S, 1.022 5S)区间进行光谱面积筛选时, 各元素定标模型的RMSECV与SRMSECV如表4所示。

    经过光谱面积筛选, 14种元素中, 虽然有11种元素的RMSECV减小, 但由于Mo元素的RMSECV本身较大, 且在面积筛选后出现较明显的恶化, 导致各元素的RMSECV均值由0.145 8%增大至0.148 2%, 掩盖了多数元素RMSECV减小的趋势。 若改用SRMSECV来表征分析准确度, 则各元素的SRMSECV均值由面积筛选前的0.108 6减小至0.108 3, 多数元素RMSECV减小的趋势得以体现。 这表明, 相较于RMSECV均值, SRMSECV均值能够更全面地表征多元素分析准确度, 更有利于实现定标曲线的全自动优化。

    表4 光谱面积筛选区间(0.977 5S, 1.022 5S)下各元素定标模型的RMSECV与SRMSECV

    Table 4 RMSECV and SRMSECV of each element under the spectral area screening interval(0.977 5S, 1.022 5S)

    4 不同光谱面积跨度区间的SRMSECV变化规律

    光谱面积筛选, 即是根据同一样品的各张等离子光谱的谱图信息选定某一数值, 如光谱面积的均值、 中位数、 中间值等, 并以此数值为中心, 选定某一光谱面积区间, 舍弃面积在该区间之外的光谱, 使用余下光谱进行定量分析。 LIBS检测中往往存在异常光谱, 其特征之一是面积较正常光谱偏大或偏小。 同一样品下只有10张光谱且当中存在异常光谱时, 均值光谱会包含异常光谱信息, 而中位数光谱往往由正常光谱平均而成, 故将光谱面积中位数S选作筛选中心。

    多元素分析准确度可由各元素定标模型的R2均值与SRMSECV均值体现。 为研究筛选区间跨度对R2均值与SRMSECV均值的影响, 分别在6个跨度不同的区间下进行光谱面积筛选, 并利用多谱线内标法对筛选剩余的光谱进行定量分析, 结果如图4所示。

    图4 R2均值与SRMSECV均值随筛选区间跨度的变化规律

    Fig.4 The variation of the average R2 and the average SRMSECV with the span of the screening interval

    未经光谱面积筛选时, 各元素定标模型的R2均值为0.950 4, SRMSECV均值为0.108 6。 随着筛选跨度逐渐缩小, R2均值呈现先增大后减小的趋势, 而SRMSECV均值则呈现先减小后增大的趋势。

    出现这种现象, 是由于构建定标模型时, 各样品的所有光谱共同组成样本, 而各样本点则由单个样品的各幅光谱组成。 各样本点均存在两类误差, 一类是随机误差, 由光谱仪基底噪声、 烧蚀面形貌等因素引入, 另一类则是粗大误差, 由测量条件波动(如激光脉冲能量, 振动)等因素引入。 随机误差广泛存在于各张光谱中, 而异常光谱中既包含随机误差, 也包含粗大误差。 采样次数较多时, 各张光谱所组成整体的随机误差趋向于0, 且异常光谱较集中地分布于光谱面积分布区间的两端。 筛选跨度本身较宽时, 缩小筛选跨度能够有效滤去异常光谱, 从而减小粗大误差。 然而, 光谱面积筛选在滤去异常光谱时, 变相减少了采样次数, 致使筛选剩余光谱组成整体的随机误差增大。 当筛选跨度减小到一定程度时, 面积筛选减小粗大误差的效果已不明显, 而随机误差随着光谱张数减少逐渐增大, 导致分析准确度反而下降。

    表5给出的是在优化筛选跨度下, 进行光谱面积筛选所获得的各元素定标模型的R2与SRMSECV。

    表5 (0.974 7S, 1.025 3S)跨度下各元素定标模型的R2与SRMSECV

    Table 5 The R2 and SRMSECV of each element under the spectral area screening interval (0.974 7 S, 1.025 3 S)

    经过光谱面积筛选, 14种分析元素中, 有10种元素定标模型的R2得到优化, R2均值由0.950 4升至0.952 5; 有11种元素定标模型的SRMSECV得到优化, SRMSECV均值由0.108 6降至0.106 4。 可见, 在合适的筛选跨度下进行光谱面积筛选, 可在一定程度上提高LIBS的多元素分析准确度。

    5 结 论

    通过对RMSECV进行标准化, 可有效减小元素间的RMSECV差异, 与RMSECV均值相比, SRMSECV均值能够更全面表征多元素的分析准确度, 将后者作为评价指标进行数据优化时, 能够体现多数元素分析准确度的变化趋势。 在0.5 Pa真空下, 对10块Ni基标样进行了检测, 使用光谱面积筛选进行预处理后, 利用多谱线内标法对其中的14种元素成分进行了定量分析。 在优化光谱面积筛选跨度下, 各元素定标模型的R2均值与SRMSECV均值都得到一定程度改善。


     
    (文/小编)
    打赏
    免责声明
    • 
    本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:https://2024.dingdx.com/news/show.php?itemid=1868 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们。
    0相关评论
     

    © Copyright 深圳市鼎达信装备有限公司 版权所有 2015-2022. All Rights Reserved.
    声明:本站内容仅供参考,具体参数请咨询我们工程师!鼎达信作为创新真空产品研发制造商,我们提供海绵吸具,海绵吸盘,真空吸盘,真空发生器,真空泵,真空鼓风机,缓冲支杆,真空配件,真空吊具等等产品

    粤ICP备17119653号