会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
知晓的老巢
唯有专注,才能保证对象的高内聚,年轻不狂妄自大,拼搏要有计划
博客园
首页
新随笔
联系
订阅
管理
2020年7月19日
数据库与数据仓库的区别
摘要:
阅读全文
posted @ 2020-07-19 11:08 知晓的老巢
阅读(176)
评论(0)
推荐(0)
2020年5月12日
RDD和DataFrame和DataSet三者间的区别
摘要: 在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构
阅读全文
posted @ 2020-05-12 16:24 知晓的老巢
阅读(748)
评论(0)
推荐(0)
2020年5月10日
Spark读取Mysql,Redis,Hbase数据(一)
摘要: 1、读取Mysql数据 object JdbcRddDemo { def getConn() = { Class.forName("com.mysql.jdbc.Driver").newInstance() DriverManager.getConnection("jdbc:mysql://hado
阅读全文
posted @ 2020-05-10 15:50 知晓的老巢
阅读(601)
评论(0)
推荐(0)
Spark中Broadcast的理解
摘要: 广播变量 应用场景:在提交作业后,task在执行的过程中, 有一个或多个值需要在计算的过程中多次从Driver端拿取时,此时会必然会发生大量的网络IO, 这时,最好用广播变量的方式,将Driver端的变量的值事先广播到每一个Worker端, 以后再计算过程中只需要从本地拿取该值即可,避免网络IO,提
阅读全文
posted @ 2020-05-10 11:11 知晓的老巢
阅读(1546)
评论(0)
推荐(0)
2020年5月9日
Spark高级算子aggregate所遇到的坑
摘要: val rdd3 = sc.parallelize(List("12","23","345","4567"),2) rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y) 两个分区先计算出字
阅读全文
posted @ 2020-05-09 09:09 知晓的老巢
阅读(319)
评论(0)
推荐(0)
2020年5月8日
Spark中rdd分区数量的决定因素
摘要: 1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block 4、sparkStreaming生成的rdd根据block interval
阅读全文
posted @ 2020-05-08 15:33 知晓的老巢
阅读(1284)
评论(0)
推荐(0)
2020年4月24日
MySql中Explain详解与索引最佳实践
摘要: 使用EXPLAIN关键字可以模拟优化器执行SQL语句,从而知道MySQL是 如何处理你的SQL语句的。分析你的查询语句或是结构的性能瓶颈 下面是使用 explain 的例子: 在 select 语句之前增加 explain 关键字,MySQL 会在查询上设置一个标记,执行查询时,会返回执行计划的信息
阅读全文
posted @ 2020-04-24 20:21 知晓的老巢
阅读(471)
评论(0)
推荐(0)
2020年4月4日
hadoop-ha+zookeeper+hbase+hive+sqoop+flume+kafka+spark集群安装
摘要: 创建3台虚拟机 主机为桌面版 其他为迷你版本 ******************************常用命令、进程名称****************************启动集群命令: start-all.sh启动zookeeper: zkServer.sh start 启动journal
阅读全文
posted @ 2020-04-04 23:31 知晓的老巢
阅读(1099)
评论(0)
推荐(0)
2020年4月1日
hadoop 多次格式化format namenode 导致节点不能启动解决
摘要: 链接:https://blog.csdn.net/qq_41059374/article/details/80695581?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.no
阅读全文
posted @ 2020-04-01 23:37 知晓的老巢
阅读(549)
评论(0)
推荐(0)
解决Zookeeper无法启动的问题
摘要: 链接1:https://blog.csdn.net/u012453843/article/details/70878117 链接2:https://www.cnblogs.com/niunafei/p/11294560.html
阅读全文
posted @ 2020-04-01 22:36 知晓的老巢
阅读(3338)
评论(0)
推荐(0)
下一页
公告