上一篇文章讲解了区间缩放法处理数据,接下来就讲解二值化处理 这个应该很简单了,从字面意思就是将数据分为0或者1…
上一篇文章讲解了数据预处理区间缩放法,这篇文章主要讲解数据归一化处理 既然讲到归一化和前面的标准化需要对比一下…
接上一篇文章无量纲标准化预处理数据标准化处理数据,这篇文章继续使用区间缩放法进行处理 区间缩放法原理 最常见的…
机器学习中特征工程的构造分析,以前在这方便还是没有去全面的了解,最近有一段磨刀的时间,还是从基础学习开始,理论…
此版本是ml版本,区别于mllib版本的决策树api 输入 Param name Type(s) Defaul…
集群经常会增加相应的node节点,但是相应的环境有没有及时更新,有的时候因为某个节点环境没有配置好导致程序跑挂…
spark随机森林算法 由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在…
1. SimRank推荐算法的图论基础 SimRank是基于图论的,如果用于推荐算法,则它假设用户和物品在空间…
大数据专题
spark学习专题
hive工作中用到的一些函数 1. concat(string s1, string s2, string s…
Spark运行FP-growth异常报错 在spark1.4版上尝试运行频繁子项挖掘算法是,照搬官方提供的Py…
刚开始看spark快速编程这本书的时候真的是没有理解这个函数的意思,后来看了博客再去看先关的api文档,现在基…
对于集群我们经常会启用公平调度或容量调度来满足多用户的需求,这个时候我们需要去设定相应的队列以及队列的优先级。…
最近看了下spark协同过滤的api,并根据提供的代码写了一版商品推荐代码,现在将当前的模块一些api函数翻译…
目前开发的版本的是spark1.6,因此很多最新的api无法使用,典型的就是读取csv文件无法跳过首行,现在给…
进入大数据领域经常接触到的词汇就是map /reduce,其实在这个在python中经常用到,比如处理一个li…
今天在spark yarn集群上面跑代码发现出现import numpy error ,提示没有相应的模块,其…