集成学习

boosting、bagging

Posted by WJY on December 11, 2018

集成学习分为两类:BoostingBagging

Boosting:迭代式学习

训练基分类器采用串行的方式,各个基分类器之间有依赖。

基本思路:将基分类器层层叠加,每一层在训练的时候对前一层分类器分错的样本给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。

Boosting过程很像人类学习的过程,我们学习新知识是迭代的,第一遍学习的时候,我们会记住一部分知识,但也会犯错误,对于这些错误我们的印象会很深,在第二遍学习的时候,就会针对犯过的错误的知识加强学习,以减少类似错误发生,不断循环往复,直到犯错误次数减少到很低。

Bagging:集体投票决策

训练基分类器可以采用并行的方式,各个基分类器无强依赖。

经典算法:给予决策树分类器的随机森林。

基本思路:将训练集分为若干子集(当训练样本很少的时候,子集会有交叉),每个基分类器单独学习出决策,最后通?过投票方式作出最终决策。

什么是偏差、方差?

基分类器又称弱分类器,它的错误是偏差和方差之和。偏差是因为分类器表达能力有限,表现在训练误差不收敛。方差是因为分类器对于样本分布过于敏感,导致在训练样本过少时产生过拟合。

小结

  • Boosting关注基分类器分错的样本,减少分类器的偏差;

  • Bagging通过对训练集多次采样并分别训练出多个不同的模型,减少分类器的方差。