上一页 1 ··· 63 64 65 66 67 68 69 70 71 ··· 81 下一页
摘要: set hive.cli.print.header=true; -- 显示字段名称 set hive.cli.print.current.db=true; -- 显示当前数据库名 drop database dbname CASCADE; -- 删除数据库及库中表 alter database dbname set dbproperties(key=value); -- 设置数据库元数据 alt... 阅读全文
posted @ 2019-02-12 17:32 Mars.wang 阅读(215) 评论(0) 推荐(0)
摘要: 数据倾斜是进行大数据计算时常见的问题。主要分为map端倾斜和reduce端倾斜,map端倾斜主要是因为输入文件大小不均匀导致,reduce端主要是partition不均匀导致。 在hive中遇到数据倾斜的解决办法: 一、倾斜原因:map端缓慢,输入数据文件多,大小不均匀 当出现小文件过多,需要合并小 阅读全文
posted @ 2019-02-12 11:13 Mars.wang 阅读(13664) 评论(0) 推荐(1)
摘要: Kafka提供了一些命令行工具,用于管理集群变更。这些工具使用Java实现,Kafka提供了一些脚本调用这些Java类。 9.1主题操作 使用Kafka-topics.sh工具可以执行主题大部分工作,我们可以用它创建,修改,删除和查看集群的主题。要使用该工具的全部功能,需要通过—zookeeper参 阅读全文
posted @ 2019-02-10 21:42 Mars.wang 阅读(416) 评论(0) 推荐(0)
摘要: 我们讨论可靠性时,一般使用保证这个词,它是确保系统在各种不同的环境下能够发生一致的行为。Kafka可以在哪些方面作出保证呢? 1.Kafka可以保证分区消息的顺序 2.只有消息被写入分区的所有同步副本时,它才会被认为是已提交的。生产者可以选择接收不同类型的确认。 3.只要还有一个副本是活跃的,那么提 阅读全文
posted @ 2019-02-09 21:41 Mars.wang 阅读(309) 评论(0) 推荐(0)
摘要: Kafka使用zookeeper来维护集群成员的信息。每个broker都有一个唯一标识符,这个标识符可以在配置文件指定,也可以自动生成。 在broker停机,出现网络分区或者长时间垃圾回收停顿时,broker会从zookeeper上断开连接,此时broker在启动时创建的临时节点会自动从zookee 阅读全文
posted @ 2019-02-09 17:32 Mars.wang 阅读(300) 评论(0) 推荐(0)
摘要: 提交和偏移量 每次调用poll 方法,总是返回生产者写入Kafka但还没有被消费者读取过的记录我们因此可以追踪到哪些记录时被群组里的哪个消费者读取过的。 我们把更新分区当前位置的操作叫做提交。 那么消费者时如何提交偏移量的呢?消费者往一个叫做_consumer_offset的特殊主题发送消息,消息里 阅读全文
posted @ 2019-02-04 10:19 Mars.wang 阅读(239) 评论(0) 推荐(0)
摘要: 应用程序使用KafkaConsumer向Kafka订阅主题,并从订阅的主题上接收消息。Kafka消费者从属于消费者群组,一个群组里的消费者订阅的是同一个主题,每个消费者接收主题的一部分分区的消息。 一个分区不能被一个消费者群组里的多个消费者消费,因此如果消费者超过主题的分区数量,那么就有一部分消费者 阅读全文
posted @ 2019-02-03 22:23 Mars.wang 阅读(193) 评论(0) 推荐(0)
摘要: 向Kafka写入消息从创建一个ProducerRecord对象开始,ProducerRecord需要包含目标主题和要发送的内容,我们还可以指定键或分区,在发送ProducerRecord对象时,生产者要先把键和值对象序列化成字节数组。 接下来数据被传给分区器,如果ProducerRecord指定了分 阅读全文
posted @ 2019-02-03 18:21 Mars.wang 阅读(202) 评论(0) 推荐(0)
摘要: Kafka是使用java开发的程序,所以它可以运行在多种操作系统上,安装Kafka之前,需要先安装Java环境,再安装zookeeper broker常规配置 1.broker.id 每个broker都需要有一个标识符,使用broker.id来表示,在整个集群上必须唯一,建议把他们设置成与机器名具有 阅读全文
posted @ 2019-02-03 16:55 Mars.wang 阅读(151) 评论(0) 推荐(0)
摘要: Kafka是一款基于发布和订阅的消息系统。一般被称为分布式提交日志或分布式流平台。 Kafka系统是按照一定的顺序持久化保存的,可以按需读取。 Kafka的数据单元被称为消息。类似于数据库中表的一行记录,消息由字节组成,所以没有特别的格式和含义。 消息有一个可选的元数据,就是键,键也是一个字节数组。 阅读全文
posted @ 2019-02-03 16:32 Mars.wang 阅读(286) 评论(0) 推荐(0)
上一页 1 ··· 63 64 65 66 67 68 69 70 71 ··· 81 下一页