随笔分类 -  2020寒假

摘要:参考:https://blog.csdn.net/u013201439/article/details/78116575 CREATE TABLE count_year SELECT YEAR(reqtime),COUNT(YEAR(reqtime)) FROM bjxj GROUP BY YEAR 阅读全文
posted @ 2020-02-16 20:04 枫黎 阅读(250) 评论(0) 推荐(0)
摘要:安装Flume,参考厦门大学林子雨教程:http://dblab.xmu.edu.cn/blog/1102/ 并完成案例1 1.案例1:Avro source Avro可以发送一个给定的文件给Flume,Avro 源使用AVRO RPC机制。a) 创建agent配置文件 cd /usr/local/ 阅读全文
posted @ 2020-02-16 18:41 枫黎 阅读(685) 评论(0) 推荐(0)
摘要:用xml代替lxml,Python3.7中已经没有etree这个模块了 import xml.etree.ElementTree as etree from lxml import etree 这种方法已经不行了 版本不匹配 阅读全文
posted @ 2020-02-13 11:58 枫黎 阅读(2433) 评论(0) 推荐(0)
摘要:在爬取详细信息页面中,又遇到了问题,就是标签内的信息爬取,用re的正则表达式没有找到解决办法,只能又去网上搜索解决办法 用bs4来解决,用 soup = BeautifulSoup(text,"html.parser")#解析text中的HTML 来进行分析,虽说这样会有标签信息附着,从网上找到解决 阅读全文
posted @ 2020-02-12 20:59 枫黎 阅读(448) 评论(0) 推荐(0)
摘要:python爬取,找到目标地址,开始研究网页代码格式,于是就开始根据之前学的知识进行爬取,出师不利啊,一开始爬取就出现了个问题,这是之前是没有遇到过的,明明地址没问题,就是显示网页不存在,于是就在百度上找解决办法,发现问题是该网页为了防止恶意访问,进行了一些处理,加上了header以及属性 head 阅读全文
posted @ 2020-02-11 20:15 枫黎 阅读(686) 评论(2) 推荐(0)
摘要:什么是 PyMySQL? PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。 PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。 PyMySQL 安装 阅读全文
posted @ 2020-02-10 20:33 枫黎 阅读(246) 评论(0) 推荐(0)
摘要:Spark SQL基本操作 (1) 查询所有数据; (2) 查询所有数据,并去除重复的数据; (3) 查询所有数据,打印时去除id字段; (4) 筛选出age>30的记录; (5) 将数据按age分组; (6) 将数据按name升序排列; (7) 取出前3行数据; (8) 查询所有记录的name列, 阅读全文
posted @ 2020-02-09 19:36 枫黎 阅读(710) 评论(0) 推荐(0)
摘要:更新错误: 正在读取软件包列表... 完成 W: GPG 错误:http://mirrors.aliyun.com xenial/mongodb-org/3.2 Release: 由于没有公钥,无法验证下列签名: NO_PUBKEY D68FA50FEA312927 W: GPG 错误:http:/ 阅读全文
posted @ 2020-02-08 20:23 枫黎 阅读(4362) 评论(0) 推荐(2)
摘要:DataFrame的创建从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能Sp 阅读全文
posted @ 2020-02-08 19:51 枫黎 阅读(2176) 评论(0) 推荐(0)
摘要:1.spark-shell交互式编程 (1) 该系总共有多少学生 scala> val lines = sc.textFile("file:///usr/local/spark/sparklab/Data01.txt") lines: org.apache.spark.rdd.RDD[String] 阅读全文
posted @ 2020-02-07 21:33 枫黎 阅读(2632) 评论(0) 推荐(0)
摘要:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后 阅读全文
posted @ 2020-02-06 16:49 枫黎 阅读(875) 评论(0) 推荐(0)
摘要:根据Spark2.1.0入门:Spark的安装和使用在虚拟机安装Spark,并进行测试 实验3 Spark读取文件系统的数据 将文件上传hdfs (1)在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; (2)在spark-sh 阅读全文
posted @ 2020-02-05 21:18 枫黎 阅读(754) 评论(0) 推荐(0)
摘要:实验 2 Scala 编程初级实践 一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器类进行数据; 4 阅读全文
posted @ 2020-02-04 16:33 枫黎 阅读(2318) 评论(0) 推荐(0)
摘要:1.Scala有两种类型的变量:val:是不可变的,在声明时就必须被初始化,而且初始化以后就不能再赋值;var:是可变的,声明的时候需要进行初始化,初始化以后还可以再次对其赋值。基本语法:val 变量名:数据类型 = 初始值var 变量名:数据类型 = 初始值类型推断机制(type inferenc 阅读全文
posted @ 2020-02-03 16:18 枫黎 阅读(507) 评论(0) 推荐(0)
摘要:什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬虫访问网站的过程会消耗目标系统资 阅读全文
posted @ 2020-02-02 15:00 枫黎 阅读(2798) 评论(0) 推荐(1)
摘要:实验 1 Linux 系统的安装和常用命令 (题目) 一、实验目的 (1)掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统 上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统中进行相关操作,同 时,下一章的 Scala 阅读全文
posted @ 2020-02-01 18:39 枫黎 阅读(3679) 评论(0) 推荐(1)