bigdata - 第4页 - 算法之道

bigdata 特征工程（4）-数据预处理二值化

上一篇文章讲解了区间缩放法处理数据，接下来就讲解二值化处理这个应该很简单了，从字面意思就是将数据分为0或者1…

上一篇文章讲解了数据预处理区间缩放法，这篇文章主要讲解数据归一化处理既然讲到归一化和前面的标准化需要对比一下…

接上一篇文章无量纲标准化预处理数据标准化处理数据，这篇文章继续使用区间缩放法进行处理区间缩放法原理最常见的…

机器学习中特征工程的构造分析，以前在这方便还是没有去全面的了解，最近有一段磨刀的时间，还是从基础学习开始，理论…

此版本是ml版本，区别于mllib版本的决策树api 输入 Param name Type(s) Defaul…

集群经常会增加相应的node节点，但是相应的环境有没有及时更新，有的时候因为某个节点环境没有配置好导致程序跑挂…

spark随机森林算法由多个决策树构成的森林，算法分类结果由这些决策树投票得到，决策树在生成的过程当中分别在…

1. SimRank推荐算法的图论基础 SimRank是基于图论的，如果用于推荐算法，则它假设用户和物品在空间…

大数据专题

spark学习专题

hive工作中用到的一些函数 1. concat(string s1, string s2, string s…

Spark运行FP-growth异常报错在spark1.4版上尝试运行频繁子项挖掘算法是，照搬官方提供的Py…

刚开始看spark快速编程这本书的时候真的是没有理解这个函数的意思，后来看了博客再去看先关的api文档，现在基…

对于集群我们经常会启用公平调度或容量调度来满足多用户的需求，这个时候我们需要去设定相应的队列以及队列的优先级。…

最近看了下spark协同过滤的api，并根据提供的代码写了一版商品推荐代码，现在将当前的模块一些api函数翻译…

目前开发的版本的是spark1.6，因此很多最新的api无法使用，典型的就是读取csv文件无法跳过首行，现在给…

进入大数据领域经常接触到的词汇就是map /reduce，其实在这个在python中经常用到，比如处理一个li…

今天在spark yarn集群上面跑代码发现出现import numpy error ，提示没有相应的模块，其…