加载中...

摘要: 程序如下 import requests import json import os def get_token(appID,appsecret): url_token = 'https://api.weixin.qq.com/cgi-bin/token?' res = requests.get(u 阅读全文
posted @ 2024-06-13 10:46 南顾〆 阅读(106) 评论(0) 推荐(0)
摘要: 1.Excel中VLOOKUP函数 该函数的语法规则如下: VLOOKUP(lookup_value,table_array,col_index_num,[range_lookup]) | 参数 | 简单说明 | 输入数据类型 | | | | | | lookup_value | 要查找的值 | 数 阅读全文
posted @ 2022-12-14 14:28 南顾〆 阅读(48) 评论(0) 推荐(0)
摘要: HiveSQL篇 SerDe相关语法 SerDe相关语法(多用,记清楚): #SerDe主要用于序列化和反序列化的 在Hive的建表语句中,和SerDe相关的语法为: row format delimited/serde delimited: //使用默认的LazySimpleSerDe类来处理数据 阅读全文
posted @ 2022-10-28 21:12 南顾〆 阅读(88) 评论(0) 推荐(0)
摘要: 【理解】SparkSQL执行流程 接收到查询,既可以是SQL语句,也可以是DSL语法,以一个SQL语句为例: 1、Parser,第三方类库Antlr实现。将sql字符串切分成Token,根据语义规则解析成一颗AST语法树,称为Unresolved Logical Plan; 如果没有语法错误,则解析 阅读全文
posted @ 2022-10-27 20:40 南顾〆 阅读(175) 评论(0) 推荐(0)
摘要: DataFrame 创建DataFrame 1.转换为DataFrame方式1 将RDD[元组或列表] 转换为DataFrame 定义RDD,每个元素是Row类型 将上面的RDD[Row]转换成DataFrame,df=spark.createDataFrame(row_rdd) 代码 # -*- 阅读全文
posted @ 2022-10-27 20:36 南顾〆 阅读(111) 评论(0) 推荐(0)
摘要: 【理解】Spark内核原理 RDD 依赖 RDD的5大特性中,第三个是【与父RDD的依赖关系】 依赖关系可以按照是否有shuffle进一步分类 ==窄依赖==:【没有】shuffle,父RDD的一个分区只会被子RDD的【1】个分区依赖,(或父RDD的一个分区的数据整个都进入到了子RDD的1个分区中) 阅读全文
posted @ 2022-10-27 20:30 南顾〆 阅读(54) 评论(0) 推荐(0)
摘要: RDD的Checkpoint RDD的checkpoint机制,因为cache、persist支持的持久化存储介质内存和磁盘容易【丢失或损坏】,而HDFS有【高容错】、【高可靠】的特性,所以将RDD的数据保存在HDFS上。 所以checkpoint也具有持久化的功能,还多了【安全】的功能。(因为hd 阅读全文
posted @ 2022-10-27 20:22 南顾〆 阅读(50) 评论(0) 推荐(0)
摘要: RDD的API操作/方法/算子 比如有一个100M的csv文件,需要对它的每个元素操作,比如先+1,再平方,结果保存另一个csv文件。 如下图,如果用传统python思维,不仅每个中间容器占用内存,消耗更多资源,而且每步都耗时。 如果用RDD思维,则每个中间容器只是记住了要做什么,逻辑上该有什么数据 阅读全文
posted @ 2022-10-19 15:58 南顾〆 阅读(83) 评论(0) 推荐(1)
摘要: Spark的命令参数 spark/bin/目录下的命令脚本都是提交Spark应用程序的。其中用得最多的4个是spark-shell、pyspark、spark-sql、spark-submit. 他们的--help中都支持同一套参数体系 (base) [root@node1 bin]# ./spar 阅读全文
posted @ 2022-10-19 15:41 南顾〆 阅读(98) 评论(0) 推荐(0)
摘要: spark集群版原理 Spark和其他大数据框架一样,计算都需要使用资源(【core】+【内存】#core就是cpu中的几核几线程的线程数 1、如果只有一台服务器,那么就是使用【1台机器】的资源,一般用来做【小数据量】的测试,称之为local运行方式。 2、企业中使用服务器集群。 【资源管理器】:统 阅读全文
posted @ 2022-10-19 14:54 南顾〆 阅读(51) 评论(0) 推荐(0)