2018年5月22日
摘要:
我看网上很多说是 Kafka在启动一段时间后,如果出现服务自动关闭情况,可在启动kafka的时使用守护进程模式启动,即在原启动命令中加 -daemon nohup /home/kafka_2.11-1.0.0/bin/kafka-server-start.sh -daemon /home/kafka
阅读全文
posted @ 2018-05-22 17:06
随学随写
阅读(1406)
推荐(0)
摘要:
kafka的配置分为 broker、producter、consumer三个不同的配置 一 BROKER 的全局配置 一 BROKER 的全局配置 最为核心的三个配置 broker.id、log.dir、zookeeper.connect 。 系统 相关 ##每一个broker在集群中的唯一标示,要
阅读全文
posted @ 2018-05-22 16:24
随学随写
阅读(867)
推荐(1)
2018年1月25日
摘要:
2018-01-25 12:04:38 [ main:1 ] - [ ERROR ] org.apache.spark.internal.Logging$class.logError(Logging.scala:91) Error initializing SparkContext.org.apac
阅读全文
posted @ 2018-01-25 14:20
随学随写
阅读(1708)
推荐(0)
2017年8月18日
摘要:
Apache Flume是一个分布式的、可靠的、高效的日志数据收集组件;我们通常使用Flume将分散在集群中多个Servers的log文件,汇集到中央式的数据平台中,以解决“从离散的日志文件中查看、统计数据困难”的问题。当然,Flume不仅仅可以收集log文件,它也支持比如TCP、UDP等消息数据的
阅读全文
posted @ 2017-08-18 18:21
随学随写
阅读(513)
推荐(0)
2017年8月8日
摘要:
启动hive:start-all.shhive 进入hive之后,创建一个hive数据库库:create database if not exists db; 创建一个新表,结构与其他一样hive> create table new_table like records; 创建分区表:hive> c
阅读全文
posted @ 2017-08-08 15:05
随学随写
阅读(356)
推荐(0)
2017年5月19日
摘要:
[2017-05-19 13:32:14,933] INFO Waiting for keeper state SyncConnected (org.I0Itec.zkclient.ZkClient)[2017-05-19 13:32:15,028] INFO Opening socket conn
阅读全文
posted @ 2017-05-19 15:08
随学随写
阅读(28987)
推荐(0)
2017年5月2日
摘要:
一、HBase的相关概念1.HBase的概念:大量数据进行随机近实时读写时使用Hbase。2.HBase是一个模仿Gootable’s Bigtable的,开源的、分布式的、版本化的非关系型数据库。3.Hbase是一个非关系型数据库。4.HBase是用来在大量数据中进行低延迟的随机查询的 2.什么是
阅读全文
posted @ 2017-05-02 21:28
随学随写
阅读(579)
推荐(0)
2017年5月1日
摘要:
(一)、桶的概念: 对于每一个表(table)或者分区, Hive可以进一步组织成桶(没有分区能分桶吗?),也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。 把表(或者分区)组织成桶(Buck
阅读全文
posted @ 2017-05-01 20:49
随学随写
阅读(1541)
推荐(0)
摘要:
一、Hive分区(一)、分区概念:为什么要创建分区:单个表数据量越来越大的时候,在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。(1)、Hive的分区和mysql的分区差异:mysql分区
阅读全文
posted @ 2017-05-01 20:12
随学随写
阅读(2235)
推荐(0)