会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
加载中...
南顾〆
整理一些以前的笔记
新随笔
联系
订阅
管理
2024年6月13日
如何用程序向微信发送消息,实现程序的运行监控
摘要: 程序如下 import requests import json import os def get_token(appID,appsecret): url_token = 'https://api.weixin.qq.com/cgi-bin/token?' res = requests.get(u
阅读全文
posted @ 2024-06-13 10:46 南顾〆
阅读(106)
评论(0)
推荐(0)
2022年12月14日
问题:每个数据库都有保留字,不同数据库之间的保留字可能不同,所以在数据迁移时可能发生冲突。假设已有数据库中数据表以及字段的汇总表格,需要找出保留字的字段,如何实现?
摘要: 1.Excel中VLOOKUP函数 该函数的语法规则如下: VLOOKUP(lookup_value,table_array,col_index_num,[range_lookup]) | 参数 | 简单说明 | 输入数据类型 | | | | | | lookup_value | 要查找的值 | 数
阅读全文
posted @ 2022-12-14 14:28 南顾〆
阅读(48)
评论(0)
推荐(0)
2022年10月28日
SQL总结(部分)
摘要: HiveSQL篇 SerDe相关语法 SerDe相关语法(多用,记清楚): #SerDe主要用于序列化和反序列化的 在Hive的建表语句中,和SerDe相关的语法为: row format delimited/serde delimited: //使用默认的LazySimpleSerDe类来处理数据
阅读全文
posted @ 2022-10-28 21:12 南顾〆
阅读(88)
评论(0)
推荐(0)
2022年10月27日
SparkSQL(二)
摘要: 【理解】SparkSQL执行流程 接收到查询,既可以是SQL语句,也可以是DSL语法,以一个SQL语句为例: 1、Parser,第三方类库Antlr实现。将sql字符串切分成Token,根据语义规则解析成一颗AST语法树,称为Unresolved Logical Plan; 如果没有语法错误,则解析
阅读全文
posted @ 2022-10-27 20:40 南顾〆
阅读(175)
评论(0)
推荐(0)
SparkSQL
摘要: DataFrame 创建DataFrame 1.转换为DataFrame方式1 将RDD[元组或列表] 转换为DataFrame 定义RDD,每个元素是Row类型 将上面的RDD[Row]转换成DataFrame,df=spark.createDataFrame(row_rdd) 代码 # -*-
阅读全文
posted @ 2022-10-27 20:36 南顾〆
阅读(111)
评论(0)
推荐(0)
SparkCore(四)
摘要: 【理解】Spark内核原理 RDD 依赖 RDD的5大特性中,第三个是【与父RDD的依赖关系】 依赖关系可以按照是否有shuffle进一步分类 ==窄依赖==:【没有】shuffle,父RDD的一个分区只会被子RDD的【1】个分区依赖,(或父RDD的一个分区的数据整个都进入到了子RDD的1个分区中)
阅读全文
posted @ 2022-10-27 20:30 南顾〆
阅读(54)
评论(0)
推荐(0)
SparkCore(三)
摘要: RDD的Checkpoint RDD的checkpoint机制,因为cache、persist支持的持久化存储介质内存和磁盘容易【丢失或损坏】,而HDFS有【高容错】、【高可靠】的特性,所以将RDD的数据保存在HDFS上。 所以checkpoint也具有持久化的功能,还多了【安全】的功能。(因为hd
阅读全文
posted @ 2022-10-27 20:22 南顾〆
阅读(50)
评论(0)
推荐(0)
2022年10月19日
SparkCore(二)
摘要: RDD的API操作/方法/算子 比如有一个100M的csv文件,需要对它的每个元素操作,比如先+1,再平方,结果保存另一个csv文件。 如下图,如果用传统python思维,不仅每个中间容器占用内存,消耗更多资源,而且每步都耗时。 如果用RDD思维,则每个中间容器只是记住了要做什么,逻辑上该有什么数据
阅读全文
posted @ 2022-10-19 15:58 南顾〆
阅读(83)
评论(0)
推荐(1)
SparkCore(一)
摘要: Spark的命令参数 spark/bin/目录下的命令脚本都是提交Spark应用程序的。其中用得最多的4个是spark-shell、pyspark、spark-sql、spark-submit. 他们的--help中都支持同一套参数体系 (base) [root@node1 bin]# ./spar
阅读全文
posted @ 2022-10-19 15:41 南顾〆
阅读(98)
评论(0)
推荐(0)
spark_base
摘要: spark集群版原理 Spark和其他大数据框架一样,计算都需要使用资源(【core】+【内存】#core就是cpu中的几核几线程的线程数 1、如果只有一台服务器,那么就是使用【1台机器】的资源,一般用来做【小数据量】的测试,称之为local运行方式。 2、企业中使用服务器集群。 【资源管理器】:统
阅读全文
posted @ 2022-10-19 14:54 南顾〆
阅读(51)
评论(0)
推荐(0)
下一页
公告