机器学习

集成学习

boosting、bagging

Posted by WJY on December 11, 2018

集成学习分为两类：Boosting和Bagging

Boosting:迭代式学习

训练基分类器采用串行的方式，各个基分类器之间有依赖。

基本思路：将基分类器层层叠加，每一层在训练的时候对前一层分类器分错的样本给予更高的权重。测试时，根据各层分类器的结果的加权得到最终结果。

Boosting过程很像人类学习的过程，我们学习新知识是迭代的，第一遍学习的时候，我们会记住一部分知识，但也会犯错误，对于这些错误我们的印象会很深，在第二遍学习的时候，就会针对犯过的错误的知识加强学习，以减少类似错误发生，不断循环往复，直到犯错误次数减少到很低。

Bagging：集体投票决策

训练基分类器可以采用并行的方式，各个基分类器无强依赖。

经典算法：给予决策树分类器的随机森林。

基本思路：将训练集分为若干子集（当训练样本很少的时候，子集会有交叉），每个基分类器单独学习出决策，最后通？过投票方式作出最终决策。

什么是偏差、方差？

基分类器又称弱分类器，它的错误是偏差和方差之和。偏差是因为分类器表达能力有限，表现在训练误差不收敛。方差是因为分类器对于样本分布过于敏感，导致在训练样本过少时产生过拟合。

小结

Boosting关注基分类器分错的样本，减少分类器的偏差；
Bagging通过对训练集多次采样并分别训练出多个不同的模型，减少分类器的方差。