会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
枫黎
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
15
下一页
2020年2月9日
实验 5 Spark SQL 编程初级实践
摘要: Spark SQL基本操作 (1) 查询所有数据; (2) 查询所有数据,并去除重复的数据; (3) 查询所有数据,打印时去除id字段; (4) 筛选出age>30的记录; (5) 将数据按age分组; (6) 将数据按name升序排列; (7) 取出前3行数据; (8) 查询所有记录的name列,
阅读全文
posted @ 2020-02-09 19:36 枫黎
阅读(709)
评论(0)
推荐(0)
2020年2月8日
W: GPG 错误:http://mirrors.aliyun.com xenial/mongodb-org/3.2 Release: 由于没有公钥,无法验证下列签名: NO_PUBKEY D68FA50FEA312927
摘要: 更新错误: 正在读取软件包列表... 完成 W: GPG 错误:http://mirrors.aliyun.com xenial/mongodb-org/3.2 Release: 由于没有公钥,无法验证下列签名: NO_PUBKEY D68FA50FEA312927 W: GPG 错误:http:/
阅读全文
posted @ 2020-02-08 20:23 枫黎
阅读(4360)
评论(0)
推荐(2)
DataFrame的创建
摘要: DataFrame的创建从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能Sp
阅读全文
posted @ 2020-02-08 19:51 枫黎
阅读(2175)
评论(0)
推荐(0)
2020年2月7日
实验4 RDD编程初级实践
摘要: 1.spark-shell交互式编程 (1) 该系总共有多少学生 scala> val lines = sc.textFile("file:///usr/local/spark/sparklab/Data01.txt") lines: org.apache.spark.rdd.RDD[String]
阅读全文
posted @ 2020-02-07 21:33 枫黎
阅读(2632)
评论(0)
推荐(0)
2020年2月6日
Spark编程基础_RDD编程
摘要: RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后
阅读全文
posted @ 2020-02-06 16:49 枫黎
阅读(875)
评论(0)
推荐(0)
2020年2月5日
Spark的安装和使用
摘要: 根据Spark2.1.0入门:Spark的安装和使用在虚拟机安装Spark,并进行测试 实验3 Spark读取文件系统的数据 将文件上传hdfs (1)在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; (2)在spark-sh
阅读全文
posted @ 2020-02-05 21:18 枫黎
阅读(754)
评论(0)
推荐(0)
2020年2月4日
实验 2 Scala 编程初级实践
摘要: 实验 2 Scala 编程初级实践 一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器类进行数据; 4
阅读全文
posted @ 2020-02-04 16:33 枫黎
阅读(2318)
评论(0)
推荐(0)
2020年2月3日
Scala基础
摘要: 1.Scala有两种类型的变量:val:是不可变的,在声明时就必须被初始化,而且初始化以后就不能再赋值;var:是可变的,声明的时候需要进行初始化,初始化以后还可以再次对其赋值。基本语法:val 变量名:数据类型 = 初始值var 变量名:数据类型 = 初始值类型推断机制(type inferenc
阅读全文
posted @ 2020-02-03 16:18 枫黎
阅读(507)
评论(0)
推荐(0)
2020年2月2日
python 爬取网络小说 清洗 并下载至txt文件
摘要: 什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬虫访问网站的过程会消耗目标系统资
阅读全文
posted @ 2020-02-02 15:00 枫黎
阅读(2798)
评论(0)
推荐(1)
2020年2月1日
实验 1 Linux 系统的安装和常用命令
摘要: 实验 1 Linux 系统的安装和常用命令 (题目) 一、实验目的 (1)掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统 上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统中进行相关操作,同 时,下一章的 Scala
阅读全文
posted @ 2020-02-01 18:39 枫黎
阅读(3674)
评论(0)
推荐(1)
上一页
1
2
3
4
5
6
7
8
···
15
下一页
公告