为什么要进行归一化处理,下面从寻找最优解这个角度给出自己的看法。 例子 假定为预测房价的例子,自变量为面积,房…
一个参数机器学习算法是什么,与非参的机器学习算法又有什么不同呢? 机器学习可以归结为学习一个函数(f),把输入…
许多网站都喜欢让用户点击“喜欢/不喜欢”,“顶/反对”,也正是这种很简单的信息也可以利用起来对用户进行推荐!这…
Softmax是Logistic回归在多分类上的推广,即类标签y的取值大于等于2。假设有m个训练样本\( {(…
ACM(国际计算机学会)主办的推荐系统专场(Recsys)是推荐系统圈子的顶级会议,从2007年开始,至今已经…
使用L1和L2正则化的使用,在许多代价函数中经常出现,也许你知道了L1会产生稀疏解,L2会防止过拟合之类的结果…
GBDT+LR的特征组合方案是工业界经常使用的组合,尤其是计算广告CTR中应用比较广泛,方案的提出者是Face…
特征组合也是特征工程中经常使用的构造新特征的方法,如果你的组合特征基数比较大的化,就不建议使用笛卡尔积的方法了…
关于这两个之间的关系推导也有很多篇文章,现在从一个稍微简单的地方推导最大熵和逻辑回归之间的关系 最大熵定义了在…
虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sig…
在k均值聚类,初始随机选取k个点作为中心点的方式在遇到离群点则得到的效果不好,当然你会说我们会尝试多次选取较好…
不同的聚类问题 对于一个聚类问题,要挑选最适合最高效的算法必须对要解决的聚类问题本身进行剖析,下面我们就从几个…
xgboost对所有的输入特征都是当做数值型对待,所以你给定的数据也要是指定的数据类型 对于数据缺失或者稀疏,…
问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: [R…
在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实…
方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大…
特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并…
2001年viola和jones发表的论文《Robust Real Time Object Detection…