南顾〆

2024年6月13日

摘要：程序如下 import requests import json import os def get_token(appID,appsecret): url_token = 'https://api.weixin.qq.com/cgi-bin/token?' res = requests.get(u 阅读全文

posted @ 2024-06-13 10:46 南顾〆阅读(115) 评论(0) 推荐(0)

2022年12月14日

问题：每个数据库都有保留字，不同数据库之间的保留字可能不同，所以在数据迁移时可能发生冲突。假设已有数据库中数据表以及字段的汇总表格，需要找出保留字的字段，如何实现？

posted @ 2022-12-14 14:28 南顾〆阅读(51) 评论(0) 推荐(0)

2022年10月28日

SQL总结(部分)

摘要： HiveSQL篇 SerDe相关语法 SerDe相关语法(多用,记清楚): #SerDe主要用于序列化和反序列化的在Hive的建表语句中，和SerDe相关的语法为: row format delimited/serde delimited: //使用默认的LazySimpleSerDe类来处理数据阅读全文

posted @ 2022-10-28 21:12 南顾〆阅读(94) 评论(0) 推荐(0)

2022年10月27日

SparkSQL(二)

摘要：【理解】SparkSQL执行流程接收到查询，既可以是SQL语句，也可以是DSL语法，以一个SQL语句为例: 1、Parser，第三方类库Antlr实现。将sql字符串切分成Token,根据语义规则解析成一颗AST语法树，称为Unresolved Logical Plan；如果没有语法错误，则解析阅读全文

posted @ 2022-10-27 20:40 南顾〆阅读(202) 评论(0) 推荐(0)

SparkSQL

摘要： DataFrame 创建DataFrame 1.转换为DataFrame方式1 将RDD[元组或列表] 转换为DataFrame 定义RDD，每个元素是Row类型将上面的RDD[Row]转换成DataFrame，df=spark.createDataFrame(row_rdd) 代码 # -*- 阅读全文

posted @ 2022-10-27 20:36 南顾〆阅读(268) 评论(0) 推荐(0)

SparkCore(四)

摘要：【理解】Spark内核原理 RDD 依赖 RDD的5大特性中，第三个是【与父RDD的依赖关系】依赖关系可以按照是否有shuffle进一步分类 ==窄依赖==：【没有】shuffle，父RDD的一个分区只会被子RDD的【1】个分区依赖，（或父RDD的一个分区的数据整个都进入到了子RDD的1个分区中）阅读全文

posted @ 2022-10-27 20:30 南顾〆阅读(78) 评论(0) 推荐(0)

SparkCore(三)

摘要： RDD的Checkpoint RDD的checkpoint机制，因为cache、persist支持的持久化存储介质内存和磁盘容易【丢失或损坏】，而HDFS有【高容错】、【高可靠】的特性，所以将RDD的数据保存在HDFS上。所以checkpoint也具有持久化的功能，还多了【安全】的功能。(因为hd 阅读全文

posted @ 2022-10-27 20:22 南顾〆阅读(85) 评论(0) 推荐(0)

2022年10月19日

SparkCore(二)

摘要： RDD的API操作/方法/算子比如有一个100M的csv文件，需要对它的每个元素操作，比如先+1，再平方，结果保存另一个csv文件。如下图，如果用传统python思维，不仅每个中间容器占用内存，消耗更多资源，而且每步都耗时。如果用RDD思维，则每个中间容器只是记住了要做什么，逻辑上该有什么数据阅读全文

posted @ 2022-10-19 15:58 南顾〆阅读(108) 评论(0) 推荐(1)

SparkCore(一)

摘要： Spark的命令参数 spark/bin/目录下的命令脚本都是提交Spark应用程序的。其中用得最多的4个是spark-shell、pyspark、spark-sql、spark-submit. 他们的--help中都支持同一套参数体系 (base) [root@node1 bin]# ./spar 阅读全文

posted @ 2022-10-19 15:41 南顾〆阅读(103) 评论(0) 推荐(0)

spark_base

摘要： spark集群版原理 Spark和其他大数据框架一样，计算都需要使用资源（【core】+【内存】#core就是cpu中的几核几线程的线程数 1、如果只有一台服务器，那么就是使用【1台机器】的资源，一般用来做【小数据量】的测试，称之为local运行方式。 2、企业中使用服务器集群。【资源管理器】：统阅读全文

posted @ 2022-10-19 14:54 南顾〆阅读(52) 评论(0) 推荐(0)

加载中...

整理一些以前的笔记

公告