随笔列表第2页 - 大数据学习与分享

摘要：从概念到使用、从基础到原理、从示例到实战的讲解一个技术，并会结合一些实际中当运用这些技术时遇到的问题阅读全文

posted @ 2021-02-09 13:10 大数据学习与分享阅读(484) 评论(0) 推荐(0) 编辑

摘要：通过之前的文章《Kafka分区分配策略》和《Kafka高性能揭秘》，我们了解到：Kafka高吞吐量的原因之一就是通过partition将topic中的消息保存到Kafka集群中不同的broker中。无论是阅读全文

posted @ 2021-02-03 11:32 大数据学习与分享阅读(3710) 评论(0) 推荐(0) 编辑

摘要：众所周知，Catalyst Optimizer是Spark SQL的核心，它主要负责将SQL语句转换成最终的物理执行计划，在一定程度上决定了SQL 阅读全文

posted @ 2021-01-29 10:41 大数据学习与分享阅读(745) 评论(0) 推荐(0) 编辑

摘要：众所周知，Apache Kafka是基于生产者和消费者模型作为开源的分布式发布订阅消息系统（当然，目前Kafka定位于an open-source distributed event streaming platform），由Scala和Java 阅读全文

posted @ 2021-01-26 10:40 大数据学习与分享阅读(2547) 评论(0) 推荐(0) 编辑

摘要： Apache Hive作为处理大数据量的大数据领域数据建设核心工具，数据量往往不是影响Hive执行效率的核心因素，数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键阅读全文

posted @ 2021-01-25 13:25 大数据学习与分享阅读(1177) 评论(0) 推荐(0) 编辑

摘要：在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比阅读全文

posted @ 2021-01-22 10:08 大数据学习与分享阅读(168) 评论(0) 推荐(0) 编辑

摘要：无论你通过哪种方式连接Hive（如Hive Cli、HiveServer2），一个HQL语句都要经过Driver的解析和执行，主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。阅读全文

posted @ 2021-01-18 09:04 大数据学习与分享阅读(1208) 评论(0) 推荐(0) 编辑

摘要：推荐系统是根据用户的行为、兴趣等特征，将用户感兴趣的信息、产品等推荐给用户的系统，它的出现主要是为了解决信息过载和用户无明确需求的问题，根据划分标准的不同，又分很多种类别阅读全文

posted @ 2021-01-12 10:32 大数据学习与分享阅读(2387) 评论(0) 推荐(0) 编辑

摘要：聚类算法是机器学习中的一种无监督学习算法，它在数据科学领域应用场景很广泛，比如基于用户购买行为、兴趣等来构建推荐系统。核心思想可以理解为，阅读全文

posted @ 2021-01-07 09:55 大数据学习与分享阅读(880) 评论(0) 推荐(0) 编辑

摘要：对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的，而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。此时阅读全文

posted @ 2020-12-31 11:12 大数据学习与分享阅读(380) 评论(0) 推荐(0) 编辑