会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
muyue123
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2020年7月13日
动态分区
摘要: 使用动态分区表必须配置的参数 : set hive.exec.dynamic.partition =true(默认false),表示开启动态分区功能 set hive.exec.dynamic.partition.mode = nonstrict(默认strict),表示允许所有分区都是动态的,否则
阅读全文
posted @ 2020-07-13 17:02 muyue123
阅读(867)
评论(0)
推荐(0)
2020年7月8日
获取当前服务器IP和机器名
摘要: import socket #获取本机电脑名 myname = socket.getfqdn(socket.gethostname()) #获取本机ip myaddr = socket.gethostbyname(myname) print(myname) print(myaddr) import
阅读全文
posted @ 2020-07-08 16:52 muyue123
阅读(350)
评论(0)
推荐(0)
2020年7月7日
RDD转dataframe
摘要: from pyspark.sql import SparkSession,Rowfrom pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType data = [('Alex','male
阅读全文
posted @ 2020-07-07 14:33 muyue123
阅读(120)
评论(0)
推荐(0)
2020年7月6日
跳出双重循环的方法
摘要: for a in [1,2,3,4,5]: for b in [1,2,3]: if a == b: print("a = b = %s" % a) break # 退出本次for循环,执行第一行的for循环 else: print("a = %s" % a) continue # 继续执行第一行的
阅读全文
posted @ 2020-07-06 16:27 muyue123
阅读(696)
评论(0)
推荐(0)
2020年7月3日
cache,persist以及checkpoint
摘要: checkpoint写流程 可以看到checkpoint使用非常简单,设置checkpoint目录,然后调用RDD的checkpoint方法。针对checkpoint的写入流程,主要有以下四个问题: Q1:RDD中的数据是什么时候写入的?是在rdd调用checkpoint方法时候吗? Q2:在做ch
阅读全文
posted @ 2020-07-03 12:42 muyue123
阅读(163)
评论(0)
推荐(0)
2020年7月1日
mapPartitionsWithIndex查看分区内的前2条数据
摘要: # 只能用yeild,如果使用return将返回结果进行字符拆分,原因还不清楚。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveS
阅读全文
posted @ 2020-07-01 15:40 muyue123
阅读(325)
评论(0)
推荐(0)
2020年6月30日
通过集合构建RDD或者DataFrame
摘要: 利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d
阅读全文
posted @ 2020-06-30 13:58 muyue123
阅读(148)
评论(0)
推荐(0)
2020年6月29日
内核源码分析——shuffle
摘要: 中华石衫版本 1——每个shuffleMapTask都会为每个ResultTask创建一份bucket缓存,以及对应的shuffleBlockFile磁盘文件; 2——shuffleMapTask的输出,会作为MapStatus,发送到DAGScheduler的MapOutputTrackerMas
阅读全文
posted @ 2020-06-29 20:20 muyue123
阅读(174)
评论(0)
推荐(0)
问题
摘要: 1:使用count(*)显示为0,但select操作时发现表有中数据。 因为执行count(1)或count(*)统计行数时,默认会从Hive的元数据库中查询 rowsNum 对应值作为结果返回(至于为什么不自动更新,尚不清楚)。 解决方案: 1——使用ANALYZE命令手动更新表统计信息:ANAL
阅读全文
posted @ 2020-06-29 17:42 muyue123
阅读(117)
评论(0)
推荐(0)
函数参数
摘要: 请看廖雪峰。 https://www.liaoxuefeng.com/wiki/1016959663602400/1017261630425888
阅读全文
posted @ 2020-06-29 16:58 muyue123
阅读(103)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
下一页
公告