大数据 - 随笔分类 - IT-執念

Kafka系列四 flume-kafka-storm整合

摘要：flume-kafka-storm flume读取日志数据，然后发送至kafka。 1、flume配置文件 2、启动flume 3、需要在flume机器上修改hosts文件，添加上kafka的主机名和ip的映射。 4、在kafka上创建主题 5、模拟生成日志脚本 6、在kafka上开启消费者至此，阅读全文

posted @ 2018-03-20 15:01 IT-執念阅读(1429) 评论(0) 推荐(0)

Kafka系列三 java API操作

摘要：使用java API操作kafka 1.pom.xml 2.producer和consumer配置文件 2.1producer.properties 2.2consumer.properties 3.生产者和消费者代码 3.1 KafkaProducerSimple.java 3.2 KafkaCo 阅读全文

posted @ 2018-03-16 10:33 IT-執念阅读(3176) 评论(0) 推荐(0)

Kafka系列二 kafka相关问题理解

摘要：1、kafka是什么类JMS消息队列，结合JMS中的两种模式，可以有多个消费者主动拉取数据，在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 producer:生产者，只负责数据生产，生产者的代码可以集成到任何系统中。数据的分发策略由producer决定，默认是D 阅读全文

posted @ 2018-03-15 23:47 IT-執念阅读(625) 评论(0) 推荐(0)

Kafka系列一基本安装

摘要：一配置文件（下载、解压、跳过） 1 # Licensed to the Apache Software Foundation (ASF) under one or more 2 # contributor license agreements. See the NOTICE file distri 阅读全文

posted @ 2018-03-13 19:06 IT-執念阅读(382) 评论(0) 推荐(0)

Storm 第四章 Storm常见问题

摘要：1、集群如何启动，任务如何执行？ java -server nimbus,supervisor client >createTopology(序列化) >提交jar到nimbusinbox >nimibus分配任务(task总数/worker数) 写到zk。启动worker< 识别自己的任务< s 阅读全文

posted @ 2018-03-07 10:09 IT-執念阅读(428) 评论(0) 推荐(0)

Storm 第三章 Storm编程案例及Stream Grouping详解

摘要：1 功能说明设计一个topology，来实现对文档里面的单词出现的频率进行统计。整个topology分为三个部分： SentenceSpout：数据源，在已知的英文句子中，随机发送一条句子出去。 SplitBolt：负责将单行文本记录（句子）切分成单词 CountBolt：负责对单词的频率进行累加阅读全文

posted @ 2018-01-24 15:36 IT-執念阅读(423) 评论(0) 推荐(0)

Storm 第二章 Storm安装

摘要：1 strom集群规划 Nimbus：hadoop1 zookeeper：hadoop2,hadoop3,hadoop4 supervisor：hadoop5,hadoop6,hadoop7 安装文件：apache-storm-1.0.0.tar 2 配置文件 storm.zookeeper.ser 阅读全文

posted @ 2018-01-24 15:04 IT-執念阅读(337) 评论(0) 推荐(0)

Storm 第一章核心组件及编程模型

摘要：1 流式计算流式计算：数据实时产生、实时传输、实时计算、实时展示代表技术：Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。一句话总结：将源源不断产生的数据实时收集并实时计算，尽可能快的得到计算结阅读全文

posted @ 2018-01-24 11:30 IT-執念阅读(518) 评论(0) 推荐(0)

四 Hive整合HBase

摘要：安装环境： hbase版本：hbase-1.4.0-bin.tar.gz hive版本： apache-hive-1.2.1-bin.tar 注意请使用高一点的hbase版本，不然就算hive和hbase关联成功，执行语句的时候会出现错误（The connection has to be unman 阅读全文

posted @ 2018-01-16 11:24 IT-執念阅读(2709) 评论(0) 推荐(0)

Hbase第五章 MapReduce操作HBase

摘要：容易遇到的坑：当用mapReducer操作HBase时，运行jar包的过程中如果遇到 java.lang.NoClassDefFoundError 类似的错误时，一般是由于hadoop环境没有hbase相关的jar包，这时候需要修改hadoop_env.sh文件，在最后面添加一行: 实例演示： p 阅读全文

posted @ 2018-01-11 16:25 IT-執念阅读(2919) 评论(0) 推荐(1)

HBase 第四章 HBase原理

摘要：1 体系图 HBase中的每张表都通过行键按照一定的范围被分割成多个子表（HRegion），默认一个HRegion超过256M就要被分割成两个，这个过程由HRegionServer管理，而HRegion的分配由HMaster管理。 HMaster 1、为Region server分配region 2 阅读全文

posted @ 2018-01-08 17:24 IT-執念阅读(377) 评论(0) 推荐(0)

HBase第三章过滤器

摘要：1 列值过滤器 SingleColumnValueFilter 对列值进行过滤。扫描全表，用过滤器进行匹配，找出出满足过滤条件的元素。 SingleColumnValueFilter 参数：列族、列名、操作符、列值操作符可以为： CompareOp.LESS：小于 CompareOp.LESS_ 阅读全文

posted @ 2018-01-08 16:25 IT-執念阅读(1073) 评论(0) 推荐(0)

HBase第二章基本API

摘要：1.pom.xml 2、API操作阅读全文

posted @ 2018-01-03 17:12 IT-執念阅读(347) 评论(0) 推荐(0)

HBase第一章安装 HMaster 主备

摘要：1、集群环境 Hadoop HA 集群规划 hadoop1 cluster1 nameNode HMaster hadoop2 cluster1 nameNodeStandby ZooKeeper ResourceManager HMaster hadoop3 cluster2 nameNode Z 阅读全文

posted @ 2018-01-03 10:29 IT-執念阅读(1840) 评论(0) 推荐(0)

Hadoop NameNode HA 和 ResourceManager HA

摘要：1、集群规划 1.1 规划说明 hadoop1 cluster1 nameNode hadoop2 cluster1 nameNodeStandby ZooKeeper ResourceManager hadoop3 cluster2 nameNode ZooKeeper hadoop4 clust 阅读全文

posted @ 2018-01-02 14:45 IT-執念阅读(1385) 评论(0) 推荐(0)

sqoop 数据迁移

摘要：sqoop 数据迁移 1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统。导出数据：从Hadoop的文件系统中导出数据到关系数据库。 2 工作机制阅读全文

posted @ 2017-12-18 18:32 IT-執念阅读(480) 评论(0) 推荐(0)

Azkaban 工作流调度器

摘要：Azkaban 工作流调度器 1 概述 1.1 为什么需要工作流调度系统 a)一个完整的数据分析系统通常都是由大量任务单元组成，shell脚本程序，java程序，mapreduce程序、hive脚本等。 b)各任务单元之间存在时间先后及前后依赖关系。 c)为了很好地组织起这样的复杂执行计划，需要一个阅读全文

posted @ 2017-12-18 16:01 IT-執念阅读(1095) 评论(0) 推荐(0)

日志采集框架 Flume

摘要：日志采集框架 Flume 1 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求，通过对flume的简单阅读全文

posted @ 2017-12-18 14:38 IT-執念阅读(1947) 评论(0) 推荐(0)

三 Hive 数据处理自定义函数UDF和Transform

摘要：三 Hive 自定义函数UDF和Transform 开篇提示：快速链接beeline的方式： 1.自定义函数UDF 当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function） UDF 作用于单个数据行，产生一个数据行作阅读全文

posted @ 2017-12-11 18:30 IT-執念阅读(1750) 评论(0) 推荐(0)

二 Hive分桶

摘要：二.Hive分桶 1.创建分桶表向创建的分桶表中插入数据需要是已分桶且排序的。通常是将其他表查询的结果插入桶中才会执行分桶操作。分桶的原理和分区原理差不多，类似HashPartitioner。 2.向分桶表中导入其他表查询后的数据或者可以使用distribute by(id) sort by( 阅读全文

posted @ 2017-12-05 18:59 IT-執念阅读(302) 评论(0) 推荐(0)

IT-執念

绳锯木断，水滴石穿

随笔分类 - 大数据

公告