特征选择

6,640次阅读

共计 714 个字符，预计需要花费 2 分钟才能阅读完成。

特征选择在机器学习中占据了重要的地位，通常在构造完特征之后会发现很多特征，少则十几个多则几十个，其实这些特征并不完全对我们构造的模型有益，也许其中只有部分特征会对我们的模型是最佳组合，因此我们需要筛选出相应的特征组合作为训练的特征。

特征较多带来的问题：

因此需要特征选择的过程

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：

根据特征选择的形式又可以将特征选择方法分为3种：

过滤法是相当于对特征预处理，也是一种通过评价函数的手段，流程如下：

包装法主要是选取一些特征组合然后对样本进行分类，根据分类的精度确定最终的特征组合，涉及到分类器训练，在训练之后通过评价函数衡量

Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

我们使用sklearn中的feature_selection库来进行特征选择。

正文完

请博主喝杯咖啡吧！

发表至： bigdata ml

2017-08-19

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。