随笔分类 - 大数据
摘要:flume-kafka-storm flume读取日志数据,然后发送至kafka。 1、flume配置文件 2、启动flume 3、需要在flume机器上修改hosts文件,添加上kafka的主机名和ip的映射。 4、在kafka上创建主题 5、模拟生成日志脚本 6、在kafka上开启消费者 至此,
阅读全文
摘要:使用java API操作kafka 1.pom.xml 2.producer和consumer配置文件 2.1producer.properties 2.2consumer.properties 3.生产者和消费者代码 3.1 KafkaProducerSimple.java 3.2 KafkaCo
阅读全文
摘要:1、kafka是什么 类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 producer:生产者,只负责数据生产,生产者的代码可以集成到任何系统中。数据的分发策略由producer决定,默认是D
阅读全文
摘要:一 配置文件(下载、解压、跳过) 1 # Licensed to the Apache Software Foundation (ASF) under one or more 2 # contributor license agreements. See the NOTICE file distri
阅读全文
摘要:1、集群如何启动,任务如何执行? java -server nimbus,supervisor client >createTopology(序列化) >提交jar到nimbusinbox >nimibus分配任务(task总数/worker数) 写到zk。 启动worker< 识别自己的任务< s
阅读全文
摘要:1 功能说明 设计一个topology,来实现对文档里面的单词出现的频率进行统计。整个topology分为三个部分: SentenceSpout:数据源,在已知的英文句子中,随机发送一条句子出去。 SplitBolt:负责将单行文本记录(句子)切分成单词 CountBolt:负责对单词的频率进行累加
阅读全文
摘要:1 strom集群规划 Nimbus:hadoop1 zookeeper:hadoop2,hadoop3,hadoop4 supervisor:hadoop5,hadoop6,hadoop7 安装文件:apache-storm-1.0.0.tar 2 配置文件 storm.zookeeper.ser
阅读全文
摘要:1 流式计算 流式计算:数据实时产生、实时传输、实时计算、实时展示 代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。 一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结
阅读全文
摘要:安装环境: hbase版本:hbase-1.4.0-bin.tar.gz hive版本: apache-hive-1.2.1-bin.tar 注意请使用高一点的hbase版本,不然就算hive和hbase关联成功,执行语句的时候会出现错误(The connection has to be unman
阅读全文
摘要:容易遇到的坑: 当用mapReducer操作HBase时,运行jar包的过程中如果遇到 java.lang.NoClassDefFoundError 类似的错误时,一般是由于hadoop环境没有hbase相关的jar包,这时候需要修改hadoop_env.sh文件,在最后面添加一行: 实例演示: p
阅读全文
摘要:1 体系图 HBase中的每张表都通过行键按照一定的范围被分割成多个子表(HRegion),默认一个HRegion超过256M就要被分割成两个,这个过程由HRegionServer管理,而HRegion的分配由HMaster管理。 HMaster 1、为Region server分配region 2
阅读全文
摘要:1 列值过滤器 SingleColumnValueFilter 对列值进行过滤。 扫描全表,用过滤器进行匹配,找出出满足过滤条件的元素。 SingleColumnValueFilter 参数:列族、列名、操作符、列值 操作符可以为: CompareOp.LESS:小于 CompareOp.LESS_
阅读全文
摘要:1、集群环境 Hadoop HA 集群规划 hadoop1 cluster1 nameNode HMaster hadoop2 cluster1 nameNodeStandby ZooKeeper ResourceManager HMaster hadoop3 cluster2 nameNode Z
阅读全文
摘要:1、集群规划 1.1 规划说明 hadoop1 cluster1 nameNode hadoop2 cluster1 nameNodeStandby ZooKeeper ResourceManager hadoop3 cluster2 nameNode ZooKeeper hadoop4 clust
阅读全文
摘要:sqoop 数据迁移 1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统。 导出数据:从Hadoop的文件系统中导出数据到关系数据库。 2 工作机制
阅读全文
摘要:Azkaban 工作流调度器 1 概述 1.1 为什么需要工作流调度系统 a)一个完整的数据分析系统通常都是由大量任务单元组成,shell脚本程序,java程序,mapreduce程序、hive脚本等。 b)各任务单元之间存在时间先后及前后依赖关系。 c)为了很好地组织起这样的复杂执行计划,需要一个
阅读全文
摘要:日志采集框架 Flume 1 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。 一般的采集需求,通过对flume的简单
阅读全文
摘要:三 Hive 自定义函数UDF和Transform 开篇提示: 快速链接beeline的方式: 1.自定义函数UDF 当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function) UDF 作用于单个数据行,产生一个数据行作
阅读全文
摘要:二.Hive分桶 1.创建分桶表 向创建的分桶表中插入数据需要是已分桶且排序的。通常是将其他表查询的结果插入桶中才会执行分桶操作。分桶的原理和分区原理差不多,类似HashPartitioner。 2.向分桶表中导入其他表查询后的数据 或者 可以使用distribute by(id) sort by(
阅读全文

浙公网安备 33010602011771号