摘要:
kafka提供了两套consumer API:高级Consumer API和低级API。 高级API 1)高级API优点 高级API 写起来简单 不需要去自行去管理offset,系统通过zookeeper自行管理 不需要管理分区,副本等情况,系统自动管理 消费者断线会自动根据上一次记录在zookee 阅读全文
posted @ 2019-11-22 10:49
大数据-云计算
阅读(183)
评论(0)
推荐(0)
摘要:
存储方式 物理上把topic分成一个或多个patition(对应 server.properties 中的num.partitions=3配置),每个patition物理上对应一个文件夹(该文件夹存储该patition的所有消息和索引文件),如下: [hadoop@masterlogs]$ ll d 阅读全文
posted @ 2019-11-22 10:47
大数据-云计算
阅读(101)
评论(0)
推荐(0)
摘要:
Hive中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的。而数据库通常有自己的执行引擎。 以上文章内容来源于《悟空智慧教育》:www.wukongone.com,《悟空智慧教育》是一家专业的大数据视频教学网,专属定制您的未来。 阅读全文
posted @ 2019-11-22 10:36
大数据-云计算
阅读(131)
评论(0)
推荐(0)
摘要:
3.1.1 写入方式 producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机写内存要高,保障kafka吞吐率)。 3.1.2 分区(Partition) 消息发送时都被发送到一个topic,其 阅读全文
posted @ 2019-11-22 10:34
大数据-云计算
阅读(114)
评论(0)
推荐(0)
摘要:
1)查看当前服务器中的所有topic [hadoop@masterkafka]$ bin/kafka-topics.sh --list --zookeeper master:2181 2)创建topic [hadoop@masterkafka]$ ./kafka-topics.sh --create 阅读全文
posted @ 2019-11-22 10:32
大数据-云计算
阅读(123)
评论(0)
推荐(0)
摘要:
Hive在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的某些Key建立索引。Hive要访问数据中满足条件的特定值时,需要暴力扫描整个数据,因此访问延迟较高。由于 MapReduce 的引入, Hive 可以并行访问数据,因此即使没有索引,对于大数据量的访问,Hi 阅读全文
posted @ 2019-11-22 10:31
大数据-云计算
阅读(129)
评论(0)
推荐(0)

浙公网安备 33010602011771号