2018年5月22日
摘要: 我看网上很多说是 Kafka在启动一段时间后,如果出现服务自动关闭情况,可在启动kafka的时使用守护进程模式启动,即在原启动命令中加 -daemon nohup /home/kafka_2.11-1.0.0/bin/kafka-server-start.sh -daemon /home/kafka 阅读全文
posted @ 2018-05-22 17:06 随学随写 阅读(1406) 评论(0) 推荐(0)
摘要: kafka的配置分为 broker、producter、consumer三个不同的配置 一 BROKER 的全局配置 一 BROKER 的全局配置 最为核心的三个配置 broker.id、log.dir、zookeeper.connect 。 系统 相关 ##每一个broker在集群中的唯一标示,要 阅读全文
posted @ 2018-05-22 16:24 随学随写 阅读(867) 评论(0) 推荐(1)
  2018年1月25日
摘要: 2018-01-25 12:04:38 [ main:1 ] - [ ERROR ] org.apache.spark.internal.Logging$class.logError(Logging.scala:91) Error initializing SparkContext.org.apac 阅读全文
posted @ 2018-01-25 14:20 随学随写 阅读(1708) 评论(0) 推荐(0)
  2017年8月18日
摘要: Apache Flume是一个分布式的、可靠的、高效的日志数据收集组件;我们通常使用Flume将分散在集群中多个Servers的log文件,汇集到中央式的数据平台中,以解决“从离散的日志文件中查看、统计数据困难”的问题。当然,Flume不仅仅可以收集log文件,它也支持比如TCP、UDP等消息数据的 阅读全文
posted @ 2017-08-18 18:21 随学随写 阅读(513) 评论(0) 推荐(0)
  2017年8月8日
摘要: 启动hive:start-all.shhive 进入hive之后,创建一个hive数据库库:create database if not exists db; 创建一个新表,结构与其他一样hive> create table new_table like records; 创建分区表:hive> c 阅读全文
posted @ 2017-08-08 15:05 随学随写 阅读(356) 评论(0) 推荐(0)
  2017年5月19日
摘要: [2017-05-19 13:32:14,933] INFO Waiting for keeper state SyncConnected (org.I0Itec.zkclient.ZkClient)[2017-05-19 13:32:15,028] INFO Opening socket conn 阅读全文
posted @ 2017-05-19 15:08 随学随写 阅读(28987) 评论(0) 推荐(0)
  2017年5月2日
摘要: 一、HBase的相关概念1.HBase的概念:大量数据进行随机近实时读写时使用Hbase。2.HBase是一个模仿Gootable’s Bigtable的,开源的、分布式的、版本化的非关系型数据库。3.Hbase是一个非关系型数据库。4.HBase是用来在大量数据中进行低延迟的随机查询的 2.什么是 阅读全文
posted @ 2017-05-02 21:28 随学随写 阅读(579) 评论(0) 推荐(0)
  2017年5月1日
摘要: (一)、桶的概念: 对于每一个表(table)或者分区, Hive可以进一步组织成桶(没有分区能分桶吗?),也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。 把表(或者分区)组织成桶(Buck 阅读全文
posted @ 2017-05-01 20:49 随学随写 阅读(1541) 评论(0) 推荐(0)
摘要: 一、Hive分区(一)、分区概念:为什么要创建分区:单个表数据量越来越大的时候,在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。(1)、Hive的分区和mysql的分区差异:mysql分区 阅读全文
posted @ 2017-05-01 20:12 随学随写 阅读(2235) 评论(0) 推荐(0)