liuming_1992

2017年3月15日

摘要： http://spark.apache.org/docs/1.6.1/tuning.html1) 代码优化 a. 对于多次使用的RDD，进行数据持久化操作(eg: cache、persist) b. 如果对同一个份数据进行操作，那么尽量公用一个RDD c. 优先使用reduceByKey和aggre 阅读全文

posted @ 2017-03-15 15:00 liuming_1992 阅读(4636) 评论(0) 推荐(0)

2017年3月3日

[数据挖掘] - 聚类算法：K-means算法理解及SparkCore实现

摘要：聚类算法是机器学习中的一大重要算法，也是我们掌握机器学习的必须算法，下面对聚类算法中的K-means算法做一个简单的描述：一、概述 K-means算法属于聚类算法中的直接聚类算法。给定一个对象(或记录)的集合，将这些对象划分为多个组或者“聚簇”，从而使同组内的对象间比较相似而不同组对象间差异比较大阅读全文

posted @ 2017-03-03 22:28 liuming_1992 阅读(1743) 评论(0) 推荐(0)

2017年2月27日

[Hadoop] - Hadoop 3.x版本新特性

摘要：仅做记录 >官方说明：http://hadoop.apache.org/docs/r3.0.0-alpha2/index.html 1. JDK版本的最低依赖从1.7变成了1.8 2. HDFS支持Erasure Encoding 3. Timeline Server v2版本 4. hadoop- 阅读全文

posted @ 2017-02-27 17:33 liuming_1992 阅读(1928) 评论(0) 推荐(0)

[Hadoop] - Hadoop3.0.x编译

摘要：这里仅介绍一种Hadoop3.0.x版本的源码编译方式编译过程 1. 下载源码 2. 安装依赖环境 3. 源码编译一、下载源码直接从apache的归档网站中下载对应版本的源码，比如需要下载的hadoop-3.0.0-alpha2的地址为http://archive.apache.org/dis 阅读全文

posted @ 2017-02-27 17:01 liuming_1992 阅读(4414) 评论(0) 推荐(0)

[Hadoop] - Cannot run program "cmake"

摘要：在编译hadoop的过程中，遇到缺少cmake命令的异常，异常信息为：Cannot run program "cmake" (in directory "/opt/workspaces/hadoop-3.0.0-alpha2-src/hadoop-common-project/hadoop-comm 阅读全文

posted @ 2017-02-27 15:32 liuming_1992 阅读(1474) 评论(0) 推荐(0)

[Hadoop] - Protocol Buffer安装

摘要： Hadoop从2.x版本开始，底层的RPC远程调用使用ProtocolBuffer格式来传递数据，所以在编译Hadoop的过程中有可能出现提示缺少Protocol服务的异常信息，类似：'protoc --version' did not return a version，具体异常如下：解决方案即安阅读全文

posted @ 2017-02-27 15:12 liuming_1992 阅读(2380) 评论(0) 推荐(0)

2017年2月23日

[Kafka] - Kafka Java Producer代码实现

摘要：根据业务需要可以使用Kafka提供的Java Producer API进行产生数据，并将产生的数据发送到Kafka对应Topic的对应分区中，入口类为：Producer Kafka的Producer API主要提供下列三个方法： public void send(KeyedMessage<K,V> 阅读全文

posted @ 2017-02-23 13:28 liuming_1992 阅读(23805) 评论(2) 推荐(2)

[Kafka] - Kafka Java Consumer实现(二)

摘要： Kafka提供了两种Consumer API，分别是：High Level Consumer API 和 Lower Level Consumer API(Simple Consumer API) High Level Consumer API：高度抽象的Kafka消费者API；将底层具体获取数据、阅读全文

posted @ 2017-02-23 11:20 liuming_1992 阅读(21034) 评论(2) 推荐(3)

[Kafka] - Kafka Java Consumer实现(一)

摘要： Kafka提供了两种Consumer API，分别是：High Level Consumer API 和 Lower Level Consumer API(Simple Consumer API) High Level Consumer API：高度抽象的Kafka消费者API；将底层具体获取数据、阅读全文

posted @ 2017-02-23 11:03 liuming_1992 阅读(33978) 评论(4) 推荐(3)

2017年2月22日

[数据挖掘] - 机器学习概述

摘要：机器学习主要是为了设计和分析一些让计算机可以自动"学习"的算法。即从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。定义：机器学习是对能通过经验自动改进的计算机算法的研究机器学习主要分为两大类，分别是：监督学习和无监督学习；监督学习是指对于输入的训练集中既有特征(feature)，也阅读全文

posted @ 2017-02-22 09:44 liuming_1992 阅读(378) 评论(0) 推荐(0)

公告