4 随机森林

随机森林(Random Forest,简称 RF)是 bagging 的一个扩展变种

在采样的随机性基础上,进一步引入了属性选择的随机性

  • 传统决策树在选择划分属性时是在当前节点的属性集合(假定 d 个属性)中选择一个最优属性
  • RF 是:对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含 k 个属性的子集,然后再从这个子集中选择一个最优属性用于划分,一般取 k=\log_2d
  • 属性扰动使得个体学习器相关性进一步减弱,提升了泛化性能

随着基分类器数目增加,随机森林通常会收敛到更低的泛化误差

image-20221111165808752

本文阅读量