2020年2月8日
摘要:
今天简单的爬取了一个小说,小说的爬虫相对来说比较简单,爬虫的网址是:http://www.92kshu.cc/69509/ 主要通过正则表达式进行的简单的爬虫,获取每个章节的url地址,之后将界面中的内容获取 通过html可以看到每章节的网址后面都是和a标签里面的href属性内容一样的,只要获取了属
阅读全文
posted @ 2020-02-08 18:58
啥123
阅读(444)
推荐(0)
2020年2月7日
摘要:
DataFrame读写Mysql数据 import java.util.Properties import org.apache.spark.sql.types._ import org.apache.spark.sql.Row object exercise{ def main(args:Arra
阅读全文
posted @ 2020-02-07 17:40
啥123
阅读(473)
推荐(0)
2020年2月6日
摘要:
今天学习了python爬虫相关的知识,有了一定的了解 网络格式:1.json格式2.bs4.BeautifulSoup() 提取数据 自动纠正html出错(有限)函数的参数 解析器:1 lxml解析器 基于C语言开发的 解析速度快,但是需要额外安装,适用于大量的数据进行解析 2 html.parse
阅读全文
posted @ 2020-02-06 20:27
啥123
阅读(118)
推荐(0)
2020年2月5日
摘要:
5.sc.textFiles() 与 sc.wholeTextFiles() 的区别 sc.textFile()是将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式,文件的每一行 相当于 列表 的一个元素,因此可以在每个partition中用for i in data的形式遍历处理
阅读全文
posted @ 2020-02-05 17:07
啥123
阅读(393)
推荐(0)
2020年2月4日
摘要:
1.spark中partition的概念partition是RDD的最小单元,是盛放文件的盒子,一个文件可能需要多个partition,但是一个partition只能存放一个文件中的内容,partition是spark计算中,生成的数据在计算空间内最小单元,2.fileWriter.flush()f
阅读全文
posted @ 2020-02-04 19:47
啥123
阅读(413)
推荐(0)
2020年2月2日
摘要:
今天完成了实验二的最后两个实验,由于对Scala语言并不了解,不知道如何进行文件读取,后来通过上网查询,找到了相关代码, spark中partition的概念partition是RDD的最小单元,是盛放文件的盒子,一个文件可能需要多个partition,但是一个partition只能存放一个文件中的
阅读全文
posted @ 2020-02-02 17:43
啥123
阅读(155)
推荐(0)
2020年2月1日
摘要:
SparkContext是编写Spark程序用到的第一个类,是Spark的主要入口点,用于连接Spark集群、创建RDD、累加器和广播变量,是Spark程序的根本。编写不同类型的Spark程序,使用的SparkContext是不同的Scala 使用SparkContextJava 使用JavaSpa
阅读全文
posted @ 2020-02-01 20:29
啥123
阅读(145)
推荐(0)
2020年1月31日
摘要:
1.基于内存2.迭代式计算3.分布式 基本工作原理:将spark的程序提交到spark集群上,在Hadoop的HDFS或者Hive上读取数据,读取的数据存放在各个spark的节点上,分布式的存放在多个节点上,主要在每个节点的内存上,这样可以加快速度。对节点的数据进行处理,处理后的数据存放在其他的节点
阅读全文
posted @ 2020-01-31 13:47
啥123
阅读(439)
推荐(0)
2019年12月8日
摘要:
本学期我们学习了软件需求这门课程,了解关于需求分析的相关知识,在软件开发过程中,软件需求是第一步,同时也是最重要的一步,当我们找到了用户真正的需求,在开发过程中会达到事半功倍的效果,阅读了《用户故事与敏捷方法》这本书,在这本书中详细的介绍了用户故事与敏捷开发方法的结合,找到真正适合用户的,有价值的需
阅读全文
posted @ 2019-12-08 17:37
啥123
阅读(182)
推荐(0)
2019年11月19日
摘要:
int integer的区别:int时基本类型,Integer是对象类型。 1.Java 中的数据类型分为基本数据类型和复杂数据类型 int 是前者>>integer 是后者(也就是一个类) Integer 是对象类型 int是原始类型 适用场合有很大的不同 之所以要把int封装成Integer 型
阅读全文
posted @ 2019-11-19 21:52
啥123
阅读(333)
推荐(0)