摘要: http://spark.apache.org/docs/1.6.1/tuning.html1) 代码优化 a. 对于多次使用的RDD,进行数据持久化操作(eg: cache、persist) b. 如果对同一个份数据进行操作,那么尽量公用一个RDD c. 优先使用reduceByKey和aggre 阅读全文
posted @ 2017-03-15 15:00 liuming_1992 阅读(4590) 评论(0) 推荐(0) 编辑
摘要: 聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一、概述 K-means算法属于聚类算法中的直接聚类算法。给定一个对象(或记录)的集合,将这些对象划分为多个组或者“聚簇”,从而使同组内的对象间比较相似而不同组对象间差异比较大 阅读全文
posted @ 2017-03-03 22:28 liuming_1992 阅读(1654) 评论(0) 推荐(0) 编辑
摘要: 仅做记录 >官方说明:http://hadoop.apache.org/docs/r3.0.0-alpha2/index.html 1. JDK版本的最低依赖从1.7变成了1.8 2. HDFS支持Erasure Encoding 3. Timeline Server v2版本 4. hadoop- 阅读全文
posted @ 2017-02-27 17:33 liuming_1992 阅读(1832) 评论(0) 推荐(0) 编辑
摘要: 这里仅介绍一种Hadoop3.0.x版本的源码编译方式 编译过程 1. 下载源码 2. 安装依赖环境 3. 源码编译 一、下载源码 直接从apache的归档网站中下载对应版本的源码,比如需要下载的hadoop-3.0.0-alpha2的地址为http://archive.apache.org/dis 阅读全文
posted @ 2017-02-27 17:01 liuming_1992 阅读(4255) 评论(0) 推荐(0) 编辑
摘要: 在编译hadoop的过程中,遇到缺少cmake命令的异常,异常信息为:Cannot run program "cmake" (in directory "/opt/workspaces/hadoop-3.0.0-alpha2-src/hadoop-common-project/hadoop-comm 阅读全文
posted @ 2017-02-27 15:32 liuming_1992 阅读(1396) 评论(0) 推荐(0) 编辑
摘要: Hadoop从2.x版本开始,底层的RPC远程调用使用ProtocolBuffer格式来传递数据,所以在编译Hadoop的过程中有可能出现提示缺少Protocol服务的异常信息,类似:'protoc --version' did not return a version,具体异常如下: 解决方案即安 阅读全文
posted @ 2017-02-27 15:12 liuming_1992 阅读(2283) 评论(0) 推荐(0) 编辑
摘要: 根据业务需要可以使用Kafka提供的Java Producer API进行产生数据,并将产生的数据发送到Kafka对应Topic的对应分区中,入口类为:Producer Kafka的Producer API主要提供下列三个方法: public void send(KeyedMessage<K,V> 阅读全文
posted @ 2017-02-23 13:28 liuming_1992 阅读(23683) 评论(2) 推荐(2) 编辑
摘要: Kafka提供了两种Consumer API,分别是:High Level Consumer API 和 Lower Level Consumer API(Simple Consumer API) High Level Consumer API:高度抽象的Kafka消费者API;将底层具体获取数据、 阅读全文
posted @ 2017-02-23 11:20 liuming_1992 阅读(20942) 评论(2) 推荐(3) 编辑
摘要: Kafka提供了两种Consumer API,分别是:High Level Consumer API 和 Lower Level Consumer API(Simple Consumer API) High Level Consumer API:高度抽象的Kafka消费者API;将底层具体获取数据、 阅读全文
posted @ 2017-02-23 11:03 liuming_1992 阅读(33768) 评论(4) 推荐(3) 编辑
摘要: 机器学习主要是为了设计和分析一些让计算机可以自动"学习"的算法。即从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。 定义:机器学习是对能通过经验自动改进的计算机算法的研究 机器学习主要分为两大类,分别是:监督学习和无监督学习;监督学习是指对于输入的训练集中既有特征(feature),也 阅读全文
posted @ 2017-02-22 09:44 liuming_1992 阅读(346) 评论(0) 推荐(0) 编辑