平码五不中公式规律
  • / 9
  • 下载费用:30 金币  

一种剔除校正集异常样本的方法.pdf

关 键 ?#21097;?/dt>
一种 剔除 校正 异常 样本 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201710017074.X

申请日:

2017.01.10

公开号:

CN106706558A

公开日:

2017.05.24

当前法律状态:

授权

?#34892;?#24615;:

有权

法?#19978;?#24773;: 授权|||实质审查的生效IPC(主分类):G01N 21/359申请日:20170110|||公开
IPC分类号: G01N21/359(2014.01)I; G01N21/3577(2014.01)I; G06T7/00(2017.01)I 主分类号: G01N21/359
申请人: 南京富岛信息工程有限公司
发明人: 陈夕松; 姜胜男; 王杰; 杜眯; 费树岷; 胡云云; 宋玲政
地址: 210061 江苏省南京市浦口高新开发区桐雨路6号南京软件园
优?#28909;ǎ?/td>
专利代理机构: 南京天华专利代理有限责任公司 32218 代理人: 刘畅;夏平
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201710017074.X

授权公告号:

||||||

法律状态公告日:

2019.03.22|||2017.06.16|||2017.05.24

法律状态类型:

授权|||实质审查的生效|||公开

摘要

本发明提出了一种剔除校正集异常样本的方法,利用局部建模的方法,对校正集中的样本逐一进行留一交叉验证预测,将预测值超出再?#20013;?#30340;样本列为可疑异常样本,然后利用主成分分析坐标图以及性质间的相关性分析,最终确定异常样本。该方法较好地剔除了校正集中的异常样本,消除了异常样本对其他正常样本的不良影响,且有利于校正集的不断丰富和完善,对提高模型预测精度具有重要影响。

权利要求书

1.一种剔除校正集异常样本的方法,其特征在于该方法首先利用局部建模的方法,对
校正集中的样本逐一进行留一交叉验证预测,将预测值超出再?#20013;?#30340;样本列为可疑异常样
本,然后利用主成分分析坐标图以及性质间的相关性分析,最终确定异常样本;其?#26657;?#20027;成
分分析坐标图用于判断可疑异常样本是否是由于建模样本不足造成:若可疑异常样本分布
在坐标图的边缘,则认为是建模样本不足造成,将其暂列为正常样本;若可疑异常样本分布
在坐标图密集区,则利用性质间的相关性分析确定其是否为异常样本。
2.根据权利要求1所述的一种剔除校正集异常样本的方法,其特征在于该方法具有以
下步骤:
(1)获取汽油初始校正集样本的近红外光谱和性质化验值;
(2)对校正集样本的光谱进行常规预处理;
(3)采用留一交叉验证法对校正集中样本逐一进行PLS建模预测,分别得到预测值,以
及预测值与化验值之间的偏差;
(4)筛选出预测偏差超出再?#20013;?#25351;标的校正样本,将其列为可疑异常样本;
(5)从校正集中筛选出可疑异常样本,剩下的样本继续作为下一轮建模的校正集;
(6)继续重复步骤(3)~(5),直至预测偏差全部在相应的再?#20013;?#25351;标范围内;
(7)将可疑异常样本逐一和剩余校正集样本进行主成分分析,绘制主成分分析坐标图;
(8)疑异常样本视为正常样本;如果可疑异常样本分布在坐标图密集区,则利用性质之
间的相关性分析确定其是否为异常样本。
3.根据权利要求2所述的一种剔除校正集异常样本的方法,其特征在于步骤(2)所述的
常规预处理方法采用基线校正和矢量归一。
4.根据权利要求2所述的一种剔除校正集异常样本的方法,其特征在于步骤(3)所述的
PLS模型是采用局部建模的方法,特征光谱谱段选为4000~4800cm-1,选择50±5个校正样本
作为相似样本建立模型。
5.根据权利要求2所述的一种剔除校正集异常样本的方法,其特征在于步骤(3)所述的
局部建模方法是在三维主成分分析坐标图?#26657;?#21033;用长宽高比为3:2:1的长方体选择相似样
本。

说明书

一种剔除校正集异常样本的方法

技术领域

本发明主要用于油品性质快速检测领域,具体为一种基于近红外光谱的油品性质
检测前剔除校正集异常样本的方法。

背景技术

在汽油性质快速检测过程?#26657;?#19994;界广泛采用基于近红外光谱的建模预测技术。目
前,存在两类最常用的建模方法,一是全局建模,二是局部建模。全局建模方法虽具有较好
的通用性,但其对校正集样本分布均匀性要求严格,且模型的预测精度普遍不高;局部建模
方法选择校正集中相似样本建模,预测更准。特别是在计算机速度?#25214;?#25552;升的情况下,局部
建模近年来发展很快。

然而,在校正集中可能会出现两类异常样本,一类是化验值与预测值存在显著性
差异的校正样本,这可能是由化验值测定误差较大、光谱测量误差较大或化验值录入错误
等原因导致的,这类样本不管是全局建模还是局部建模在建模前必须剔除;另一类是高杠
杆值样本,与校正集中其他样本相比,含有极端组成,远离模型整体样本的平均值,这类样
本显然对全局建模无益,因为破坏了样本分布的均匀性,但对局部建模不但无害,反而有利
于丰富校正集,提升后续类似待测样本的预测精度。因此,准确识别并剔除异常样本对提高
模型预测精度具有重要的意义。

发明内容

为了准确识别并剔除校正集中的异常样本,提高油品性质的模?#22270;?#27979;精度,本发
明提出了一种剔除校正集异常样本的方法。该方法首先利用局部建模的方法将留一交叉验
证预测值超出再?#20013;?#25351;标的样本列为可疑异常样本,然后利用主成分分析(PCA)坐标图以
及性质间的相关性分析,最终确定异常样本;其?#26657;?#20027;成分分析坐标图用于判断可疑异常样
本是否是由于建模样本不足造成:若可疑异常样本分布在坐标图的边缘,则认为是建模样
本不足造成,将其暂列为正常样本;若可疑异常样本分布在坐标图密集区,则利用性质间的
相关性分析确定其是否为异常样本。

该方法具体包括以下步骤:

(1)获取汽油初始校正集样本的近红外光谱和性质化验值;

(2)对校正集样本的光谱进行常规预处理;

(3)采用留一交叉验证法对校正集中样本逐一进行偏最小二乘(PLS)建模预测,分
别得到预测值,以及预测值与化验值之间的偏差;

(4)筛选出预测偏差超出再?#20013;?#25351;标的校正样本,将其列为可疑异常样本;

(5)从校正集中筛选出可疑异常样本,剩下的样本继续作为下一轮建模的校正集;

(6)继续重复步骤(3)~(5),直至预测偏差全部在相应的再?#20013;?#25351;标范围内;

(7)将可疑异常样本逐一和剩余校正集样本进行主成分分析,绘制PCA坐标图;

(8)观察PCA坐标图,如果可疑异常样本分布在坐标图的边缘,极有可能是建模样
本不足造成的,将该可疑异常样本视为正常样本;如果可疑异常样本分布在坐标图密集区,
则利用性质之间的相关性分析确定其是否为异常样本。

根据国家油品性质检测相关条文规定,对于汽油性质的再?#20013;?#25351;标,研究法辛烷
值(RON)的再?#20013;?#20026;0.6,马达法辛烷值的再?#20013;?#20026;0.8,密度(20℃)的再?#20013;?#20026;5.0kg/m3,
饱和蒸气压(RVP)的再?#20013;?#20026;5.0kPa,等?#21462;?br />

对于特定汽油,各个性质之间的相关性情况一般为?#22909;?#24230;和RON、50%蒸发温度之
间具有良好的正相关性,密度和RVP间具有负相关性,这为异常样本的进一步分析提供了参
?#23478;?#25454;。

有益效果:

本发明提出了一种剔除校正集异常样本的方法,首先利用局部建模的方法,对校
正集中的样本逐一进行留一交叉验证预测,将预测值超出再?#20013;?#25351;标的样本列为可疑异常
样本,然后利用主成分分析坐标图以及性质间的相关性分析,最终确定异常样本。该方法能
?#34892;?#21076;除校正集中的异常样本,有助于提高模型预测精度。

附图说明

图1校正集异常样本剔除方法的实施流程图

图2编号为93#_26与编号为93#_48样本的光谱对比图

图3编号为93#_132的可疑异常样本与校正集样本的PCA坐标图

具体实施过程

下面?#23735;?#38468;图和实施案例对本发明作进一步的说明。

本发明以某93#汽油为例,介绍汽油校正集异常样本的剔除方法。本案例是针对汽
油RON的测试,选择2014年10?#36718;?016年9月的共计136个样本作为初始校正集,编号分别为
93#-1~93#-136。采用留一交叉验证预测法对校正集中的样本逐一进行局部建模预测,选
择的建模谱段为4000~4800cm-1,在三维主成分分析坐标图?#26657;?#21033;用长宽高比为3:2:1的长
方体(以第一主成分为横轴3,第二主成分为纵轴2,第三主成分为竖轴1,绘制三维主成分分
析图)选择50±5个校正样本作为相似样本建立模型。初始校正集中样本的建模预测结果如
表1所示。

表1初始校正集中样本留一交叉预测结果





由于汽油RON的再?#20013;?#20026;0.6,则筛选出预测偏差绝对值大于0.6的样本,由表1可
知共有9个样本的预测偏差超出再?#20013;?#25351;标,分别为93#_1、93#_26、93#_38、93#_47、93#_
55、93#_64、93#_84、93#_123、93#_132,将其列为可疑异常样本,继续对剩余校正集样本再
次进行留一交叉验证,又筛选出1个样本93#_45,将其放入可疑异常样本集。表2所示为可疑
异常样本集的样本预测情况。

表2可疑异常样本集的样本预测情况



筛选出可疑异常样本后,校正集中剩余的126个样本为正常样本。下面利用PCA坐
标图以及各性质间的相关性,对表2中给出的可疑异常样本进行分析。以编号为93#_26的可
疑异常样本为例,对校正集中剩余126个样本和93#_26样本进行PCA分析:

首先,发现编号为93#_26的样本处于PCA坐标图的样本分布密集区域,不存在相似
样本不足的问题;接着基于汽?#36879;?#20010;性质之间的相关性,发现其与编号为93#_48的样本比
较,二者光谱曲线基本重合,如图2所示。而且由表1可知,93#_26样本预测值为93.67,预测
偏差为0.83;93#_48样本预测值为93.81,预测偏差为-0.01,预测情况较好。查看表3,根据
50%蒸发温度和RON间的正相关性,93#_26样本的50%蒸发温度值比93#_48样本的50%蒸
发温度值小,则93#_26样本的RON值理应比93#_48样本的RON值小,实际上却比93#_48样本
的RON值更大。因此,认为93#_26样本的RON化验值存在正偏差,进一步的实验?#19968;?#39564;也证实
了上述分析,确定其为异常样本。

表3编号分别为93#_26和93#_48的样本性质表



采用上述相同方法分析,可以判定编号为93#_38、93#_45和93#_47的样本均为异
常样本。

再以编号为93#_132的可疑异常样本为例,对这126个样本和编号为93#_132的样
本进行PCA分析,并绘制三维坐标图,如图3所示。在图3?#26657;?#32534;号为93#_132的样本分布在边
缘,且其预测偏差高达-1.92,远超出0.6的再?#20013;裕?#26497;有可能存在相似样本不足的问题。因
此,暂且将其视为正常样本,等待后续样本的补足。然而,如果采用常规的主成分分析?#23735;?br />马氏距离方法,该样本的马氏距离在规定范围外,则被视为异常样本,剔除后造成样本集中
的样本越来越少,极值范围缩小,不利于样本库的完善,对后期建模造成不利影响。

可见,采用本发明提出的方法,能?#34892;?#21076;除校正集异常样本,为建立油品性质预测
模型打下良好基础。

关于本文
本文标题:一种剔除校正集异常样本的方法.pdf
链接地址:http://www.pqiex.tw/p-6079883.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 天津十一选五开奖走势图 大乐透走势图新浪爱彩 双色球蓝球2017142 上海时时彩开奖直播网 极速飞艇开奖公正吗 江西多乐彩基本走势图 极速十一选五遗漏规律 极速十一选五计划 体彩安徽十一选五开奖结果 河南11选5每天开多少期