会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大数据学习与分享
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2021年2月9日
【大数据学习与分享】技术干货合集
摘要: 从概念到使用、从基础到原理、从示例到实战的讲解一个技术,并会结合一些实际中当运用这些技术时遇到的问题
阅读全文
posted @ 2021-02-09 13:10 大数据学习与分享
阅读(630)
评论(0)
推荐(0)
2021年2月3日
如何为Kafka集群确定合适的分区数以及分区数过多带来的弊端
摘要: 通过之前的文章《Kafka分区分配策略》和《Kafka高性能揭秘》,我们了解到:Kafka高吞吐量的原因之一就是通过partition将topic中的消息保存到Kafka集群中不同的broker中。无论是
阅读全文
posted @ 2021-02-03 11:32 大数据学习与分享
阅读(4411)
评论(0)
推荐(0)
2021年1月29日
Spark SQL如何选择join策略
摘要: 众所周知,Catalyst Optimizer是Spark SQL的核心,它主要负责将SQL语句转换成最终的物理执行计划,在一定程度上决定了SQL
阅读全文
posted @ 2021-01-29 10:41 大数据学习与分享
阅读(912)
评论(0)
推荐(0)
2021年1月26日
Kafka分区分配策略(Partition Assignment Strategy)
摘要: 众所周知,Apache Kafka是基于生产者和消费者模型作为开源的分布式发布订阅消息系统(当然,目前Kafka定位于an open-source distributed event streaming platform),由Scala和Java
阅读全文
posted @ 2021-01-26 10:40 大数据学习与分享
阅读(2747)
评论(0)
推荐(0)
2021年1月25日
Hive常用性能优化方法实践全面总结
摘要: Apache Hive作为处理大数据量的大数据领域数据建设核心工具,数据量往往不是影响Hive执行效率的核心因素,数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键
阅读全文
posted @ 2021-01-25 13:25 大数据学习与分享
阅读(1447)
评论(0)
推荐(0)
2021年1月22日
SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once
摘要: 在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比
阅读全文
posted @ 2021-01-22 10:08 大数据学习与分享
阅读(219)
评论(0)
推荐(0)
2021年1月18日
Hive Query生命周期 —— 钩子(Hook)函数篇
摘要: 无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。
阅读全文
posted @ 2021-01-18 09:04 大数据学习与分享
阅读(1453)
评论(0)
推荐(0)
2021年1月12日
Spark推荐系统实践
摘要: 推荐系统是根据用户的行为、兴趣等特征,将用户感兴趣的信息、产品等推荐给用户的系统,它的出现主要是为了解决信息过载和用户无明确需求的问题,根据划分标准的不同,又分很多种类别
阅读全文
posted @ 2021-01-12 10:32 大数据学习与分享
阅读(2604)
评论(0)
推荐(1)
2021年1月7日
Spark MLlib中KMeans聚类算法的解析和应用
摘要: 聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为、兴趣等来构建推荐系统。核心思想可以理解为,
阅读全文
posted @ 2021-01-07 09:55 大数据学习与分享
阅读(1060)
评论(0)
推荐(0)
2020年12月31日
Hadoop支持的压缩格式对比和应用场景以及Hadoop native库
摘要: 对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。 此时
阅读全文
posted @ 2020-12-31 11:12 大数据学习与分享
阅读(498)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
下一页
公告