• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






yuncannotjava

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理

2024年3月1日

架构漫谈观后感
摘要: 切分就是利益的调整 我们要非常的清楚,所有的切分调整,都是对相关人的利益的调整。为什么这么说呢,因为维护自己的利益,是每个人的本性,是在骨子里面的,我们不能逃避这一点。我们以第一篇文章里面的例子为例来做解释。 我们已经知道,随着社会的发展,分工是必然的,为什么呢? 这个背后的动力就是每个人自己的利益 阅读全文
posted @ 2024-03-01 23:53 云云云云云云云云 阅读(14) 评论(0) 推荐(0)
 

2024年2月1日

2/1 学习进度笔记
摘要: 全部学习完成 阅读全文
posted @ 2024-02-01 14:55 云云云云云云云云 阅读(10) 评论(0) 推荐(0)
 

2024年1月31日

1/31 学习进度笔记
摘要: 今日完成了商单案例: 源码: # coding:utf8from pyspark import StorageLevelfrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql 阅读全文
posted @ 2024-01-31 18:00 云云云云云云云云 阅读(20) 评论(0) 推荐(0)
 

2024年1月30日

1/30 学习进度笔记
摘要: 无论Hive还是SparkSQL分析处理数据时,往往需要使用函数,SparkSQL模块本身自带很多实现公共功能的函数,在pyspark.sql.functions中。SparkSQL与Hive一样支持定义函数:UDF和UDAF,尤其是UDF函数在实际项目中使用最为广泛。 回顾Hive中自定义函数有三 阅读全文
posted @ 2024-01-30 16:49 云云云云云云云云 阅读(28) 评论(0) 推荐(0)
 

2024年1月29日

1/29 学习进度笔记
摘要: SparkSQL数据清洗API 前面我们处理的数据实际上都是已经被处理好的规整数据,但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据。 去重方法dropDuplicates 功能:对DF的数据进行去重,如果重复数据有多条,取第一条 缺失值处理dr 阅读全文
posted @ 2024-01-29 16:27 云云云云云云云云 阅读(28) 评论(0) 推荐(0)
 

2024年1月28日

1/28 学习进度笔记
摘要: SQL风格语法-注册DataFrame成为表 DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表,然后可以通过在程序中使用spark.sql()来执行SQL语句查询,结果返回一个DataFrame。 如果想使用SQL风格的语法,需要将DataFrame注册成表,采用如下的方式: 阅读全文
posted @ 2024-01-28 17:38 云云云云云云云云 阅读(41) 评论(0) 推荐(0)
 

2024年1月27日

1/27 学习进度笔记
摘要: 今日学习了DataFrame的代码构建--读取外部数据 读取数据源包括text,csv,json,parquet四种数据源 schema = StructType().add("data",StringType(),nullable=True)df = spark.read.format("text 阅读全文
posted @ 2024-01-27 14:46 云云云云云云云云 阅读(10) 评论(0) 推荐(0)
 

2024年1月26日

1/26 学习进度笔记
摘要: 学习的DateFrame的组成以及创建 DataFrame是一个二维表结构,那么表格结构就有无法绕开的三个点: 1.行 2.列 3.表结构描述 比如,在MySQL中的一张表: 1.由许多行组成 2.数据也被分成多个列 3.表也有表结构信息(列、列名、列类型、列约束等) 基于这个前提,DataFram 阅读全文
posted @ 2024-01-26 17:26 云云云云云云云云 阅读(19) 评论(0) 推荐(0)
 

2024年1月25日

1/25 学习进度笔记
摘要: SparkSQL? 1. SparkSQL用于处理大规模结构化数据的计算引擎 2. SparkSQL在企业中广泛使用,并性能极好,学习它不管是工作还是就业都有很大帮助 3. SparkSQL:使用简单、API统一、兼容HIVE、支持标准化JDBC和ODBC连接 4. SparkSQL 2014年正式 阅读全文
posted @ 2024-01-25 13:56 云云云云云云云云 阅读(10) 评论(0) 推荐(0)
 

2024年1月24日

1/24 学习进度笔记
摘要: DAG的宽窄依赖? 窄依赖:父RDD的一个分区,全部将数据发给子RDD的一个分区 宽依赖:父RDD的一个分区,将数据发给子RDD的多个分区 宽依赖还有一个别名: shuffle DAG调度器 工作内容:将逻辑的DAG图进行处理,最终得到逻辑上的Task划分 Task调度器 工作内容:基于DAG Sc 阅读全文
posted @ 2024-01-24 19:02 云云云云云云云云 阅读(16) 评论(0) 推荐(0)
 
下一页