摘要: kafka提供了两套consumer API:高级Consumer API和低级API。 高级API 1)高级API优点 高级API 写起来简单 不需要去自行去管理offset,系统通过zookeeper自行管理 不需要管理分区,副本等情况,系统自动管理 消费者断线会自动根据上一次记录在zookee 阅读全文
posted @ 2019-11-22 10:49 大数据-云计算 阅读(183) 评论(0) 推荐(0)
摘要: 存储方式 物理上把topic分成一个或多个patition(对应 server.properties 中的num.partitions=3配置),每个patition物理上对应一个文件夹(该文件夹存储该patition的所有消息和索引文件),如下: [hadoop@masterlogs]$ ll d 阅读全文
posted @ 2019-11-22 10:47 大数据-云计算 阅读(101) 评论(0) 推荐(0)
摘要: Hive中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的。而数据库通常有自己的执行引擎。 以上文章内容来源于《悟空智慧教育》:www.wukongone.com,《悟空智慧教育》是一家专业的大数据视频教学网,专属定制您的未来。 阅读全文
posted @ 2019-11-22 10:36 大数据-云计算 阅读(131) 评论(0) 推荐(0)
摘要: 3.1.1 写入方式 producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机写内存要高,保障kafka吞吐率)。 3.1.2 分区(Partition) 消息发送时都被发送到一个topic,其 阅读全文
posted @ 2019-11-22 10:34 大数据-云计算 阅读(114) 评论(0) 推荐(0)
摘要: 1)查看当前服务器中的所有topic [hadoop@masterkafka]$ bin/kafka-topics.sh --list --zookeeper master:2181 2)创建topic [hadoop@masterkafka]$ ./kafka-topics.sh --create 阅读全文
posted @ 2019-11-22 10:32 大数据-云计算 阅读(123) 评论(0) 推荐(0)
摘要: Hive在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的某些Key建立索引。Hive要访问数据中满足条件的特定值时,需要暴力扫描整个数据,因此访问延迟较高。由于 MapReduce 的引入, Hive 可以并行访问数据,因此即使没有索引,对于大数据量的访问,Hi 阅读全文
posted @ 2019-11-22 10:31 大数据-云计算 阅读(129) 评论(0) 推荐(0)