01 2021 档案

摘要:众所周知,Catalyst Optimizer是Spark SQL的核心,它主要负责将SQL语句转换成最终的物理执行计划,在一定程度上决定了SQL 阅读全文
posted @ 2021-01-29 10:41 大数据学习与分享 阅读(917) 评论(0) 推荐(0)
摘要:众所周知,Apache Kafka是基于生产者和消费者模型作为开源的分布式发布订阅消息系统(当然,目前Kafka定位于an open-source distributed event streaming platform),由Scala和Java 阅读全文
posted @ 2021-01-26 10:40 大数据学习与分享 阅读(2758) 评论(0) 推荐(0)
摘要:Apache Hive作为处理大数据量的大数据领域数据建设核心工具,数据量往往不是影响Hive执行效率的核心因素,数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键 阅读全文
posted @ 2021-01-25 13:25 大数据学习与分享 阅读(1462) 评论(0) 推荐(0)
摘要:在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比 阅读全文
posted @ 2021-01-22 10:08 大数据学习与分享 阅读(225) 评论(0) 推荐(0)
摘要:无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。 阅读全文
posted @ 2021-01-18 09:04 大数据学习与分享 阅读(1458) 评论(0) 推荐(0)
摘要:推荐系统是根据用户的行为、兴趣等特征,将用户感兴趣的信息、产品等推荐给用户的系统,它的出现主要是为了解决信息过载和用户无明确需求的问题,根据划分标准的不同,又分很多种类别 阅读全文
posted @ 2021-01-12 10:32 大数据学习与分享 阅读(2614) 评论(0) 推荐(1)
摘要:聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为、兴趣等来构建推荐系统。核心思想可以理解为, 阅读全文
posted @ 2021-01-07 09:55 大数据学习与分享 阅读(1075) 评论(0) 推荐(0)