摘要:
Apache Hadoop 生态圈软件下载地址:http://archive.apache.org/dist/hadoop/hadoop下载地址 http://archive.apache.org/dist/hadoop/common 安装环境 虚拟机中的 CentOS 64位 需要安装软件: jd
阅读全文
posted @ 2016-10-12 21:38
单行道|
阅读(804)
推荐(0)
摘要:
召回率(Recall) 查全率精度(Precise) 查准率 是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。 在信息检索中的解释: 系统检索到的相关文档数 系统检索到的相关文档数 A 召回率 = = 相关文件的总数 系统检索到的相关文档数+系统未检索到的相关文档数 A + C
阅读全文
posted @ 2016-10-08 15:41
单行道|
阅读(586)
推荐(0)
摘要:
MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个reduce任务来完成。 并行程度不高,无法发挥分布式计算的特点。 MapReduce全排序的方法2: 针
阅读全文
posted @ 2016-10-04 21:19
单行道|
阅读(6873)
推荐(0)
摘要:
在网上看到coursera有机器学习的课程,正好再学习学习,温固一下,还有很多其他的课程也很好。收费的哟! 手机APP和网站收取的费用有差异,网站上要便宜一下,费用差的挺多的,果断在网站上支付了。 有兴趣的同学可以学一下,推荐,老师也是国外的老师,课程还是蛮精良的,不用担心听不懂,有中文字幕。注:第
阅读全文
posted @ 2016-10-02 17:22
单行道|
阅读(759)
推荐(0)
摘要:
将Mahout on Spark 中的机器学习算法和MLlib中支持的算法统计如下: 主要针对MLlib进行总结 分类与回归 分类和回归是监督式学习; 监督式学习是指使用有标签的数据(LabeledPoint)进行训练,得到模型后,使用测试数据预测结果。其中标签数据是指已知结果的特征数据。 分类和回
阅读全文
posted @ 2016-09-24 00:42
单行道|
阅读(7060)
推荐(0)
摘要:
Lambda表达式 lambda expression是一个匿名函数,Lambda表达式基于数学中的λ演算得名,直接对应于其中的lambda抽象(lambda abstraction),是一个匿名函数,即没有函数名的函数。表达式使用 Lambda 运算符 =>,该运算符读为“goes to”。语法如
阅读全文
posted @ 2016-09-22 11:06
单行道|
阅读(436)
推荐(0)
摘要:
回归 Regression ,可以理解为倒推,由结果推测出原因。 线性回归 是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,表达形式为: y= ax+b+e e为误差服从均值为0的正态分布。 通过已有的大量数据,x和y的值,计算得到表达式y=ax+b+e的关
阅读全文
posted @ 2016-09-19 01:12
单行道|
阅读(873)
推荐(0)
摘要:
分布函数家族: *func()r : 随机分布函数d : 概率密度函数p : 累积分布函数q : 分位数函数 func()表示具体的名称如下表: 例子 单变量统计函数 均值:mean中位数:median分位数:quantile方差:var标准差:sd频数表:table 偏度: Sk=sum((x[!
阅读全文
posted @ 2016-09-18 15:28
单行道|
阅读(2356)
推荐(0)
摘要:
Spark Streaming Spark Streaming 是Spark为了用户实现流式计算的模型。 数据源包括Kafka,Flume,HDFS等。 DStream 离散化流(discretized stream), Spark Streaming 使用DStream作为抽象表示。是随时间推移而
阅读全文
posted @ 2016-09-16 23:03
单行道|
阅读(1184)
推荐(0)
摘要:
变量 变量按变量值是否连续可分为连续变量与离散变量两种。 连续变量(continuous variable)与离散变量(discrete variable) 连续变量 在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。 离散变量 离散变量是指其
阅读全文
posted @ 2016-09-15 19:58
单行道|
阅读(2617)
推荐(0)