| | | |

2024年3月1日

摘要：切分就是利益的调整我们要非常的清楚，所有的切分调整，都是对相关人的利益的调整。为什么这么说呢，因为维护自己的利益，是每个人的本性，是在骨子里面的，我们不能逃避这一点。我们以第一篇文章里面的例子为例来做解释。我们已经知道，随着社会的发展，分工是必然的，为什么呢? 这个背后的动力就是每个人自己的利益阅读全文

posted @ 2024-03-01 23:53 云云云云云云云云阅读(31) 评论(0) 推荐(0)

2024年2月1日

2/1 学习进度笔记

摘要：全部学习完成阅读全文

posted @ 2024-02-01 14:55 云云云云云云云云阅读(24) 评论(0) 推荐(0)

2024年1月31日

1/31 学习进度笔记

摘要：今日完成了商单案例：源码: # coding:utf8from pyspark import StorageLevelfrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql 阅读全文

posted @ 2024-01-31 18:00 云云云云云云云云阅读(34) 评论(0) 推荐(0)

2024年1月30日

1/30 学习进度笔记

摘要：无论Hive还是SparkSQL分析处理数据时，往往需要使用函数，SparkSQL模块本身自带很多实现公共功能的函数，在pyspark.sql.functions中。SparkSQL与Hive一样支持定义函数:UDF和UDAF，尤其是UDF函数在实际项目中使用最为广泛。回顾Hive中自定义函数有三阅读全文

posted @ 2024-01-30 16:49 云云云云云云云云阅读(47) 评论(0) 推荐(0)

2024年1月29日

1/29 学习进度笔记

摘要： SparkSQL数据清洗API 前面我们处理的数据实际上都是已经被处理好的规整数据，但是在大数据整个生产过程中，需要先对数据进行数据清洗，将杂乱无章的数据整理为符合后面处理要求的规整数据。去重方法dropDuplicates 功能:对DF的数据进行去重,如果重复数据有多条，取第一条缺失值处理dr 阅读全文

posted @ 2024-01-29 16:27 云云云云云云云云阅读(46) 评论(0) 推荐(0)

2024年1月28日

1/28 学习进度笔记

摘要： SQL风格语法-注册DataFrame成为表 DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表，然后可以通过在程序中使用spark.sql()来执行SQL语句查询，结果返回一个DataFrame。如果想使用SQL风格的语法，需要将DataFrame注册成表,采用如下的方式: 阅读全文

posted @ 2024-01-28 17:38 云云云云云云云云阅读(64) 评论(0) 推荐(0)

2024年1月27日

1/27 学习进度笔记

摘要：今日学习了DataFrame的代码构建--读取外部数据读取数据源包括text,csv,json,parquet四种数据源 schema = StructType().add("data",StringType(),nullable=True)df = spark.read.format("text 阅读全文

posted @ 2024-01-27 14:46 云云云云云云云云阅读(51) 评论(0) 推荐(0)

2024年1月26日

1/26 学习进度笔记

摘要：学习的DateFrame的组成以及创建 DataFrame是一个二维表结构，那么表格结构就有无法绕开的三个点: 1.行 2.列 3.表结构描述比如，在MySQL中的一张表: 1.由许多行组成 2.数据也被分成多个列 3.表也有表结构信息（列、列名、列类型、列约束等) 基于这个前提，DataFram 阅读全文

posted @ 2024-01-26 17:26 云云云云云云云云阅读(42) 评论(0) 推荐(0)

2024年1月25日

1/25 学习进度笔记

摘要： SparkSQL？ 1. SparkSQL用于处理大规模结构化数据的计算引擎 2. SparkSQL在企业中广泛使用，并性能极好，学习它不管是工作还是就业都有很大帮助 3. SparkSQL:使用简单、API统一、兼容HIVE、支持标准化JDBC和ODBC连接 4. SparkSQL 2014年正式阅读全文

posted @ 2024-01-25 13:56 云云云云云云云云阅读(25) 评论(0) 推荐(0)

2024年1月24日

1/24 学习进度笔记

摘要： DAG的宽窄依赖？窄依赖:父RDD的一个分区，全部将数据发给子RDD的一个分区宽依赖:父RDD的一个分区,将数据发给子RDD的多个分区宽依赖还有一个别名: shuffle DAG调度器工作内容:将逻辑的DAG图进行处理,最终得到逻辑上的Task划分 Task调度器工作内容:基于DAG Sc 阅读全文

posted @ 2024-01-24 19:02 云云云云云云云云阅读(26) 评论(0) 推荐(0)