仪器信息网APP
选仪器、听讲座、看资讯

如何避免建模过程中的过拟合?

近红外光谱(NIR)

  • 虽然有专业化的化学计量学软件,但在建立和维护近红外模型,却依然会遇到很多问题。请问,如何避免建模过程中的过拟合?
  • 该帖子已被版主-firesea加1积分,加2经验;加分理由:发起讨论话题
    +关注 私聊
  • athosmi

    第1楼2013/10/12

    看过拟合的原因了。
    如果是配制的样品中某些成分线性相关了,那必然过拟合。
    如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
    其他还有什么情况我就一时想不起来了……

0
  • 该帖子已被版主-武灵加2积分,加2经验;加分理由:积极讨论
    +关注 私聊
  • 武灵

    第2楼2013/10/13

    athosmi老师可以针对这两点细致讲一下吗?如果有参加原创大赛的文章就更好了。

    athosmi(athosmi) 发表:看过拟合的原因了。
    如果是配制的样品中某些成分线性相关了,那必然过拟合。
    如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
    其他还有什么情况我就一时想不起来了……

0
    +关注 私聊
  • 武灵

    第3楼2013/10/13

    波段选择不当如何引起过拟合呢?这个没有理解。

    athosmi(athosmi) 发表:看过拟合的原因了。
    如果是配制的样品中某些成分线性相关了,那必然过拟合。
    如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
    其他还有什么情况我就一时想不起来了……

0
    +关注 私聊
  • reeroo

    第4楼2013/10/14

    我认为在PLS算法中,产生过拟合主要是两个原因:

    1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
    解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。

    2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
    解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。

0
  • 该帖子已被版主-武灵加3积分,加2经验;加分理由:深入解答!
    +关注 私聊
  • reeroo

    第5楼2013/10/14

    如果自己配制样品,一定要看下成分之间是否存在相关性,否则必然过拟合。天然产物类的一般就没有这个问题。

    你说的正交验证是指cross validation吗?如果是选择了波段不当,cross validation的效果应该就不好吧,应该不会过拟合。

    athosmi(athosmi) 发表:看过拟合的原因了。
    如果是配制的样品中某些成分线性相关了,那必然过拟合。
    如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
    其他还有什么情况我就一时想不起来了……

0
    +关注 私聊
  • carrie_yaxin

    第6楼2013/10/15

    额,从哪个地方可以看出模型是否过拟合呢?

    reeroo(reeroo) 发表:我认为在PLS算法中,产生过拟合主要是两个原因:

    1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
    解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。

    2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
    解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。

0
    +关注 私聊
  • reeroo

    第7楼2013/10/15

    过拟合(overfit)就是说校正集样品过度拟合,建立模型时校正集拟合很好,但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。

    carrie_yaxin(carrie_yaxin) 发表:额,从哪个地方可以看出模型是否过拟合呢?

0
  • 该帖子已被版主-firesea加1积分,加2经验;加分理由:回复话题
    +关注 私聊
  • carrie_yaxin

    第8楼2013/10/15

    那请教一下“与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。”这边的偏差与标准差的区别?是与标准偏差一样吗?

    reeroo(reeroo) 发表:过拟合(overfit)就是说校正集样品过度拟合,建立模型时校正集拟合很好,但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。

0
    +关注 私聊
  • reeroo

    第9楼2013/10/15

    你说这个貌似和过拟合不是一个概念吧。这个应该是判断出一组数据中异常数据的方法,标准差代表一组数据的离散程度,计算方法是所有数据与平均值偏差的平方和,除以个数,再开根号。

    carrie_yaxin(carrie_yaxin) 发表:那请教一下“与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。”这边的偏差与标准差的区别?是与标准偏差一样吗?

0
    +关注 私聊
  • firesea

    第10楼2013/10/15

    大家多发言 谈谈过拟合这个事情

0
查看更多
猜你喜欢最新推荐热门推荐更多推荐
举报帖子

执行举报

点赞用户
好友列表
加载中...
正在为您切换请稍后...