02 2020 档案
学习一
摘要:PageRank 网页之间有联系,有相互引用关系,在百度搜索时候网页出现先后顺序,引用关系的越多越重要 对于数据量特别大的计算需要PageRank,采用mapreduce的计算模型。把一个大的数据量拆分成小的数据量。 拆分的过程叫map 把小部分汇总起来叫reduce Mapreduce由map和r 阅读全文
posted @ 2020-02-28 16:12 啥123 阅读(213) 评论(0) 推荐(0)
淘宝网六个质量属性场景
摘要:1.可用性 可用性与系统故障及其后果相关,当系统不再提供其规范中所说的服务时,就出现了系统故障。系统用户可以观察到此类故障。 可用性是指系统正常运行时间的比例,是通过两次故障之间的时间长度或在系统崩溃情况下能够恢复正常运行的速度来衡量的 刺激源 系统外部用户 刺激 双十一很多用户进行同时访问,系统访 阅读全文
posted @ 2020-02-23 14:48 啥123 阅读(146) 评论(0) 推荐(0)
架构漫谈阅读笔记2
摘要:软件的主要目的就是把人类的生活模拟化,提供更低成本,高效率的新的生活。软件开发的架构演变软件工程师是实现这个模拟过程的关键人物,他必须先理解人是怎么在日常生活中完成工作的,才能够很好的把这些工作在计算机中模拟出来。可是软件工程师需要学习大量的计算机语言和计算机知识,还需要学习各行各业的专业知识。 软 阅读全文
posted @ 2020-02-23 13:34 啥123 阅读(80) 评论(0) 推荐(0)
架构漫谈1-4读书笔记
摘要:1.为什么会产生架构?一旦产生分工,就把所有的事情切分成由不同角色的人来完成,最后再通过交易,使得每个个体都拥有 生活必须品,而不需要每个个体做所有的事情,只需要每个个体做好自己擅长的事情,并具备一定的交 易能力即可。就形成了社会的架构。2.架构产生的五个条件:(1)必须由人执行工作(2)每个人的能 阅读全文
posted @ 2020-02-17 16:30 啥123 阅读(110) 评论(0) 推荐(0)
采集北京市政百姓信件内容
摘要:通过这几天的学习,发现有些网页的爬取比较简单,比如小说,但是其他爬取北京市政百姓信件这个网页并没有想象中那么简单,在翻页的时候,网址并没有发生改变,后来通过询问同学,了解了ajax技术,通过scrapy框架和json来进行爬取,首先信件列表网页找到详细页面的url地址,发现网页中并没有完整的url地 阅读全文
posted @ 2020-02-14 19:16 啥123 阅读(560) 评论(0) 推荐(0)
Python Xpath语法
摘要:一、python数据提取xpath1.beautifulsoup xpath 正则表达式2.xpath是一种在XML和HTML文档中查找信息的语言,可用来在XML和HTML中对元素进行遍历 Chrome XPath Helper3.XPath语法(1)选取节点:使用路径表达式来选取文档中的节点 no 阅读全文
posted @ 2020-02-12 17:12 啥123 阅读(468) 评论(0) 推荐(0)
spark学习六
摘要:今天主要完成了实验六,就flume进行了安装 1.安装 Flume 2. 使用 Avro 数据源测试 Flume 3. 使用 netcat 数据源测试 Flume 4.使用 Flume 作为 Spark Streaming 数据源 package org.apache.spark.examples. 阅读全文
posted @ 2020-02-11 11:25 啥123 阅读(190) 评论(0) 推荐(0)
scrapy学习五
摘要:今天完成了实验五: 1.Spark SQL 基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { 阅读全文
posted @ 2020-02-10 18:37 啥123 阅读(256) 评论(0) 推荐(0)
python Scrapy框架
摘要:scrapy框架1.scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,使用了Twisted(扭曲)异步网络框架,可以加快下载是速度。同步异步(过程) 阻塞非阻塞(状态) 2.工作流程:scheduler(调度器)里面存放request对象,这个对象里有url地址scrapy eng 阅读全文
posted @ 2020-02-09 20:50 啥123 阅读(162) 评论(0) 推荐(0)
python小说爬虫
摘要:今天简单的爬取了一个小说,小说的爬虫相对来说比较简单,爬虫的网址是:http://www.92kshu.cc/69509/ 主要通过正则表达式进行的简单的爬虫,获取每个章节的url地址,之后将界面中的内容获取 通过html可以看到每章节的网址后面都是和a标签里面的href属性内容一样的,只要获取了属 阅读全文
posted @ 2020-02-08 18:58 啥123 阅读(430) 评论(0) 推荐(0)
DataFrame读写Mysql数据以及Spark Streaming相关知识
摘要:DataFrame读写Mysql数据 import java.util.Properties import org.apache.spark.sql.types._ import org.apache.spark.sql.Row object exercise{ def main(args:Arra 阅读全文
posted @ 2020-02-07 17:40 啥123 阅读(473) 评论(0) 推荐(0)
python相关知识
摘要:今天学习了python爬虫相关的知识,有了一定的了解 网络格式:1.json格式2.bs4.BeautifulSoup() 提取数据 自动纠正html出错(有限)函数的参数 解析器:1 lxml解析器 基于C语言开发的 解析速度快,但是需要额外安装,适用于大量的数据进行解析 2 html.parse 阅读全文
posted @ 2020-02-06 20:27 啥123 阅读(117) 评论(0) 推荐(0)
spark学习四
摘要:5.sc.textFiles() 与 sc.wholeTextFiles() 的区别 sc.textFile()是将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式,文件的每一行 相当于 列表 的一个元素,因此可以在每个partition中用for i in data的形式遍历处理 阅读全文
posted @ 2020-02-05 17:07 啥123 阅读(393) 评论(0) 推荐(0)
spark学习三
摘要:1.spark中partition的概念partition是RDD的最小单元,是盛放文件的盒子,一个文件可能需要多个partition,但是一个partition只能存放一个文件中的内容,partition是spark计算中,生成的数据在计算空间内最小单元,2.fileWriter.flush()f 阅读全文
posted @ 2020-02-04 19:47 啥123 阅读(411) 评论(0) 推荐(0)
spark学习三
摘要:今天完成了实验二的最后两个实验,由于对Scala语言并不了解,不知道如何进行文件读取,后来通过上网查询,找到了相关代码, spark中partition的概念partition是RDD的最小单元,是盛放文件的盒子,一个文件可能需要多个partition,但是一个partition只能存放一个文件中的 阅读全文
posted @ 2020-02-02 17:43 啥123 阅读(155) 评论(0) 推荐(0)
spark学习二
摘要:SparkContext是编写Spark程序用到的第一个类,是Spark的主要入口点,用于连接Spark集群、创建RDD、累加器和广播变量,是Spark程序的根本。编写不同类型的Spark程序,使用的SparkContext是不同的Scala 使用SparkContextJava 使用JavaSpa 阅读全文
posted @ 2020-02-01 20:29 啥123 阅读(145) 评论(0) 推荐(0)