摘要: 树莓派 (Raspbian) 安装字体 1. 获取管理员权限 su root 2. 进入字体安装路径 cd /usr/share/fonts 3. 根据字体文件的类型,拷贝字体文件文件夹至该路径 比如.otf后缀的字体其文件夹应拷贝至/usr/share/fonts/opentype文件夹中,.tt 阅读全文
posted @ 2022-01-26 15:01 1After909 阅读(764) 评论(0) 推荐(0) 编辑
摘要: 1. 选择使用什么数据,有哪些字段,多大数据量。 美国新冠肺炎疫情数据集 字段:累计确诊人数、累计死亡人数、新增确诊人数、新增死亡人数、各州累计确诊人数、各州累计死亡人数和美国各州 2. 准备分析哪些问题?(8个以上) 美国每日的累计确诊病例数和死亡数 美国每日的新增确诊病例数 美国每日的新增死亡病 阅读全文
posted @ 2021-06-07 21:28 1After909 阅读(35) 评论(0) 推荐(0) 编辑
摘要: Spark 连接 MySQL 数据库 1. 安装启动检查 MySQL 服务 service mysql start sudo netstat -tap | grep mysql 2. Spark 连接 MySQL 驱动程序 pyspark \ --jars /usr/local/spark/jars 阅读全文
posted @ 2021-05-30 21:43 1After909 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 学生课程分数的 Spark SQL 分析 读学生课程分数文件 chapter4-data01.txt,创建 DataFrame。 from pyspark.sql.types import * from pyspark.sql import Row # 下面生成“表头” fields = [Stru 阅读全文
posted @ 2021-05-20 04:07 1After909 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 从 RDD 创建 DataFrame 1. pandas df 与 spark df 的相互转换 import pandas as pd import numpy as np arr = np.arange(9).reshape(-1,3) df_p = pd.DataFrame(arr) arr 阅读全文
posted @ 2021-05-14 04:13 1After909 阅读(134) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 及其 DataFrame 的基本操作 Q & A 1. Spark SQL 出现的原因是什么? 关系数据库已经流行多年,能较好的满足各类商业公司的业务数据管理需求,但关系数据库在大数据时代已经不能满足各种新增的用户需求。用户需要从不同数据源执行各种操作(包括结构化和非结构化数据) 阅读全文
posted @ 2021-05-10 21:59 1After909 阅读(119) 评论(0) 推荐(0) 编辑
摘要: RDD 编程 一、词频统计: 1. 读文本文件生成 RDD lines >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> lines.foreach(print) 2. 将一行一行的文本分割成单词 w 阅读全文
posted @ 2021-04-18 21:53 1After909 阅读(168) 评论(0) 推荐(0) 编辑
摘要: RDD 练习:词频统计 一、词频统计: 1. 读文本文件生成 RDD lines >>> lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") >>> lines.foreach(print) 2. 将一行一行的文本分割 阅读全文
posted @ 2021-04-05 21:51 1After909 阅读(178) 评论(0) 推荐(0) 编辑
摘要: RDD 编程练习 一、filter, map, flatmap 练习: 1. 读文本文件生成 RDD lines >>> lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") 2. 将一行一行的文本分割成单词 words > 阅读全文
posted @ 2021-03-31 21:30 1After909 阅读(71) 评论(0) 推荐(0) 编辑
摘要: Spark RDD 编程 1 准备文本文件 vim /usr/local/spark/mycode/rdd/word.txt Hadoop is good Spark is fast Spark is better 从文件创建 RDD lines=sc.textFile() lines = sc.t 阅读全文
posted @ 2021-03-28 21:26 1After909 阅读(48) 评论(0) 推荐(0) 编辑