随机森林进行特征重要性度量的详细说明

2023-07-26 09:01

1个回答
随机森林进行特征重要性度量的详细说明
特征选择方法中,有一种方法是利迅衡袜用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明。
1 特征重要性度量
计算某个特征X的重要性时,具体步骤如下:
1)对每一颗决策树,选择相应的袋外数据(out of bag,OOB)计算袋外数据误差,记为errOOB1.
所谓袋外数据是指,每次建立决策树时,通过重复抽样得到一个数据用于训练决策树,这时还有大约1/3的数据没有被利用,没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估,计算模型的预测错误率,称为袋外数据误差。
这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。
2)随机对袋外数据OOB所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值),再次计算袋外数据误差,记为errOOB2。
3)假设森林中有N棵树,则特征X的重要性=∑(errOOB2-errOOB1)/N。这个数值之所以能够说明特征的重要性是因为,如果加入随机噪声后,袋外数据准确率大幅亩激度下降(即errOOB2上升),说明这个特征对于样本的预测结果有很大影响,进而说明重要程度比较高。
2 特征选择
在特征重要性的基础上,特征选择的步骤如下:
1)计算每个特征的重要性,并按降序排序
2)确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集
3)用新的特征集重复上述过程,直到剩下m个特征(m为提前设定的值)。
4)根据上述过程中得到的各拦派个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。
相关问答
随和什么意思,详细些
2个回答2023-08-18 16:43
就是跟别人好相处,给人第一感觉就是这个人很好
森林报的详细的内容
1个回答2022-06-30 09:48
额……问我干吗
关于太行山的传说 一些神奇的故事也行 大量的 详细的
1个回答2024-01-22 13:32
    一 寒雪无声  太行山的风在哭 他孤独 历经了千万年雨洗 却只有雄鹰相伴  岁月无情 绝崖壁石上  留存着千古梦 珍藏着万里的云  辽阔长空 它...
全文
这小孩长的怎么样?什么性格的?详细说点(不是我孩子 随便说)
1个回答2024-02-15 14:45
孩子长大还不错 一看就属于活波开朗调皮捣蛋的那种
电度表的详细工作原理是什么?
1个回答2024-03-28 18:23
a:精英仪表机械表工作原理 当电能表接入电路时,电压线圈和电流线圈产生的磁通穿过圆盘,这些磁通在时间和空间上不同相,分别在圆盘上感应出涡流,由于磁通与涡流的相互作用而产生转动力矩使圆盘转动,因磁钢的制...
全文
米.伊森的详细介绍?
1个回答2024-05-17 09:50
米·伊林,出生于乌克兰,毕业于列宁格勒工艺学院,作家。 他自1924年开始创作科学文艺性短文,善于把文学和科学结合起来,其作品活泼而又逻辑严谨,代表作有《十万个为什么》《不夜天》《黑白》《几点钟》等...
全文
如何把文言文改写为小说?(请尽量详细) 感谢!
1个回答2024-02-23 09:59
既然说是改写的话那么就不是翻译那么简单了,改写的作品具有著作权。改写其实是个创作过程,在不脱离该文言文故事主线及真实历史的情况下你需要自己去构想故事情节,然后加以描写。如果要说更具体是不大可能的,...
全文
我被美女QJ后有什么事发生,尽量详细点。
1个回答2024-03-13 18:26
QJ回去啊!做人啊,不蒸馒头争口气,绝对不能吃亏
扫码下载APP
听书听课听播客,随时随地陪伴你
热门问答