bigdata 特征选择(7)-基于树模型的选择
上一篇文章使用基于模型的方法进行特征选择,其中主要描述了使用正则项、lasso等方法实现的特征选择,这篇文章是…
bigdata 特征选择(6)-嵌入式选择(embedded)
上一篇讲解了使用基于递归消除法,从大范围来讲是通过wrapper的方法,中文就是包装的方法,递归消除是这其中主…
bigdata 特征选择(5)-递归消除法
上一篇文章使用最大信息系数筛选特征,本篇使用递归消除法筛选特征。 递归消除法,首先递归肯定是要循环执行多次来筛…
bigdata 特征选择(4)-最大信息系数方法
上一篇使用卡方系数进行特征选择,使用的是假设检验的思路,这篇文章使用最大信息系数的方法进行计算。 为什么要使用…
bigdata 特征选择(3)-卡方检验
上一篇说明从皮尔逊系数选择,这次使用卡方检验的方法来选择特征,使用假设检验的方式。 首先还是从卡方检验的原理,…
bigdata 特征选择(2)-相关系数法
上一篇文章讲到使用方差选择特征,这篇文章主要是使用pearson系数进行特征选择 使用相关系数法,先要计算各个…
bigdata 特征选择(1)-方差选择法
方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大…
Python OS X上安装XGBoost
為了要讓XGBoost在mac上具有multi-threading的功能,我們必須另外安裝gcc 首先安裝Ho…
bigdata 特征工程(6)-数据预处理数据变换
上一篇讲解了使用哑编码的方式来进行数据预处理,这篇文章看起来只是用来作为数据类型的转换,比如多项式操作或者自定…
bigdata 特征工程(5)-数据预处理哑编码
上一篇讲解了数据二值化处理,这篇讲解数据的哑编码 哑编码概念 先来讲解下哑编码的概念吧,当你的变量不是定量特征…
bigdata 特征工程(4)-数据预处理二值化
上一篇文章讲解了区间缩放法处理数据,接下来就讲解二值化处理 这个应该很简单了,从字面意思就是将数据分为0或者1…
bigdata 特征工程(3)-数据预处理归一化
上一篇文章讲解了数据预处理区间缩放法,这篇文章主要讲解数据归一化处理 既然讲到归一化和前面的标准化需要对比一下…
bigdata 特征工程(2)-数据预处理区间缩放法
接上一篇文章无量纲标准化预处理数据标准化处理数据,这篇文章继续使用区间缩放法进行处理 区间缩放法原理 最常见的…
bigdata 特征工程(1)-数据预处理标准化
机器学习中特征工程的构造分析,以前在这方便还是没有去全面的了解,最近有一段磨刀的时间,还是从基础学习开始,理论…