随笔档案「2017年2月」 - liuming_1992

[Hadoop] - Hadoop 3.x版本新特性

摘要：仅做记录 >官方说明：http://hadoop.apache.org/docs/r3.0.0-alpha2/index.html 1. JDK版本的最低依赖从1.7变成了1.8 2. HDFS支持Erasure Encoding 3. Timeline Server v2版本 4. hadoop- 阅读全文

posted @ 2017-02-27 17:33 liuming_1992 阅读(1920) 评论(0) 推荐(0)

[Hadoop] - Hadoop3.0.x编译

摘要：这里仅介绍一种Hadoop3.0.x版本的源码编译方式编译过程 1. 下载源码 2. 安装依赖环境 3. 源码编译一、下载源码直接从apache的归档网站中下载对应版本的源码，比如需要下载的hadoop-3.0.0-alpha2的地址为http://archive.apache.org/dis 阅读全文

posted @ 2017-02-27 17:01 liuming_1992 阅读(4403) 评论(0) 推荐(0)

[Hadoop] - Cannot run program "cmake"

摘要：在编译hadoop的过程中，遇到缺少cmake命令的异常，异常信息为：Cannot run program "cmake" (in directory "/opt/workspaces/hadoop-3.0.0-alpha2-src/hadoop-common-project/hadoop-comm 阅读全文

posted @ 2017-02-27 15:32 liuming_1992 阅读(1456) 评论(0) 推荐(0)

[Hadoop] - Protocol Buffer安装

摘要：Hadoop从2.x版本开始，底层的RPC远程调用使用ProtocolBuffer格式来传递数据，所以在编译Hadoop的过程中有可能出现提示缺少Protocol服务的异常信息，类似：'protoc --version' did not return a version，具体异常如下：解决方案即安阅读全文

posted @ 2017-02-27 15:12 liuming_1992 阅读(2356) 评论(0) 推荐(0)

[Kafka] - Kafka Java Producer代码实现

摘要：根据业务需要可以使用Kafka提供的Java Producer API进行产生数据，并将产生的数据发送到Kafka对应Topic的对应分区中，入口类为：Producer Kafka的Producer API主要提供下列三个方法： public void send(KeyedMessage<K,V> 阅读全文

posted @ 2017-02-23 13:28 liuming_1992 阅读(23777) 评论(2) 推荐(2)

[Kafka] - Kafka Java Consumer实现(二)

摘要：Kafka提供了两种Consumer API，分别是：High Level Consumer API 和 Lower Level Consumer API(Simple Consumer API) High Level Consumer API：高度抽象的Kafka消费者API；将底层具体获取数据、阅读全文

posted @ 2017-02-23 11:20 liuming_1992 阅读(21019) 评论(2) 推荐(3)

[Kafka] - Kafka Java Consumer实现(一)

摘要：Kafka提供了两种Consumer API，分别是：High Level Consumer API 和 Lower Level Consumer API(Simple Consumer API) High Level Consumer API：高度抽象的Kafka消费者API；将底层具体获取数据、阅读全文

posted @ 2017-02-23 11:03 liuming_1992 阅读(33937) 评论(4) 推荐(3)

[数据挖掘] - 机器学习概述

摘要：机器学习主要是为了设计和分析一些让计算机可以自动"学习"的算法。即从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。定义：机器学习是对能通过经验自动改进的计算机算法的研究机器学习主要分为两大类，分别是：监督学习和无监督学习；监督学习是指对于输入的训练集中既有特征(feature)，也阅读全文

posted @ 2017-02-22 09:44 liuming_1992 阅读(373) 评论(0) 推荐(0)

[Kafka] - Kafka内核理解：消息的收集/消费机制

摘要：一、Kafka数据收集机制 Kafka集群中由producer负责数据的产生，并发送到对应的Topic；Producer通过push的方式将数据发送到对应Topic的分区 Producer发送到Topic的数据是有key/value键值对组成的，Kafka根据key的不同的值决定数据发送到不同的Pa 阅读全文

posted @ 2017-02-21 18:27 liuming_1992 阅读(7099) 评论(0) 推荐(1)

[Kafka] - Kafka内核理解：分布式机制

摘要：一个Topic中的所有数据分布式的存储在kafka集群的所有机器(broker)上，以分区(partition)的的形式进行数据存储；每个分区允许存在备份数据/备份分区(存储在同一kafka集群的其它broker上的分区) 每个数据分区在Kafka集群中存在一个broker节点上的分区叫做leade 阅读全文

posted @ 2017-02-21 18:18 liuming_1992 阅读(1717) 评论(0) 推荐(0)

[Kafka] - Kafka内核理解：消息存储机制

摘要：一个Topic分为多个Partition来进行数据管理，一个Partition中的数据是有序、不可变的，使用偏移量(offset)唯一标识一条数据，是一个long类型的数据 Partition接收到producer发送过来数据后，会产生一个递增的offset偏移量数据，同时将数据保存到本地的磁盘文件阅读全文

posted @ 2017-02-21 18:15 liuming_1992 阅读(969) 评论(0) 推荐(0)

[Kafka] - Kafka内核理解：Message

摘要：一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes( 阅读全文

posted @ 2017-02-21 18:10 liuming_1992 阅读(2590) 评论(0) 推荐(0)

[Kafka] - Kafka基本操作命令

摘要：Kafka支持的基本命令位于${KAFKA_HOME}/bin文件夹中，主要是kafka-topics.sh命令；Kafka命令参考页面: kafka-0.8.x-帮助文档 -1. 查看帮助信息 bin/kafka-topics.sh --help -2. 创建Topic bin/kafka-top 阅读全文

posted @ 2017-02-21 11:58 liuming_1992 阅读(48553) 评论(0) 推荐(0)

[Kafka] - Kafka 安装介绍

摘要：Kafka是由LinkedIn公司开发的，之后贡献给Apache基金会，成为Apache的一个顶级项目，开发语言为Scala。提供了各种不同语言的API，具体参考Kafka的cwiki页面； Kafka的安装方式主要分为三种：单机安装、伪分布式安装、分布式安装；安装基本配置一样，区别在于：单机安装是阅读全文

posted @ 2017-02-21 11:28 liuming_1992 阅读(3051) 评论(0) 推荐(1)

[Kafka] - Kafka基本概念介绍

摘要：Kafka官方介绍：Kafka是一个分布式的流处理平台(0.10.x版本)，在kafka0.8.x版本的时候，kafka主要是作为一个分布式的、可分区的、具有副本数的日志服务系统(Kafka™ is a distributed, partitioned, replicated commit log 阅读全文

posted @ 2017-02-21 10:52 liuming_1992 阅读(6004) 评论(0) 推荐(2)

[Spark] - HashPartitioner & RangePartitioner 区别

摘要：Spark RDD的宽依赖中存在Shuffle过程，Spark的Shuffle过程同MapReduce，也依赖于Partitioner数据分区器，Partitioner类的代码依赖结构主要如下所示：主要是HashPartitioner和RangePartitioner两个类，分别用于根据RDD中k 阅读全文

posted @ 2017-02-08 11:51 liuming_1992 阅读(9376) 评论(0) 推荐(4)

liuming_1992

02 2017 档案

公告