02 2020 档案
摘要:首先啊,先来了解一下质量属性的六个常见属性与质量属性场景得定义。 质量属性的六个常见属性 1.可用性 2.可修改性 3.性能 4.安全性 5.可测试性 6.易用性 质量属性场景 包含六部分: 刺激源:这是某个生成该刺激的实体(人、计算机系统或者任何其他刺激器)。 刺激:该刺激是当刺激到达系统时需要考
阅读全文
摘要:第一周学习总结 总结了近期学到的爬虫知识与echarts调用学习,每天的代码时间在2俩小时以上。 近期还会总结一下spark'得学习记录。 三、实验内容和要求 1.Spark SQL 基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "i
阅读全文
摘要:在老师的号召下,我花了将近三四天的时间弄了这个疫情图,现在还是很简陋的,具体数据啥的不便透露。 看图: 第一张图:是全国每日疫情数据统计,红色为累计确诊病例,剩下的这上面都有解释,我也看不太清颜色。 右边的y轴对应的数据是最大的那条线的取值。 第二张图:全国疫情地图,数据不好搞,只能手动了。 enm
阅读全文
摘要:在读了王概凯的架构漫谈“九部曲”之后,我对架构有了那么认识,但就像作者说的,没有实战,就不能说自己懂了,只是皮毛而已。 在我读了这篇文章后,对架构的认识就是“切分”,分而治之。 1、 什么是架构? 在我看来呢,架构分为两部分,一部分是“框架”,另一部分是“构成”, 框架就是对于一个问题的界定,尽可能
阅读全文
摘要:今天想把工作区间的一些无用工程删一下,但是这些有那么一点用的工程还是不忍心删掉,所以就想把他上传到github。 下面呢,我们就来说一下如何将本地工程上传到github 第一步,先在github上创建一个仓库,在首页,点击这个Repositories旁边的new。 第二步,填写信息,重点是name,
阅读全文
摘要:oh,suck。 本来想着今天enmm,安装spark,安好了,做一下试验,开始还觉得比较简单,但是越来越,我就做不动了。。 将将做到了实验五,前面还没有全部做完,,,陌生,空白。 剩下的时间,重装一下sqoop吧,因为虚拟机崩了一次,装的sqoop也没有了。
阅读全文
摘要:enmmm,这个大作业费了我整整一个假期,终于写完了。 要说实际工作时间的话,应该在两个星期左右,主要是对webmagic的不了解,了解webmagic用了大概一个星期,后面基本一天就能完成一个小阶段。 来看看项目结构吧, 我把爬虫与展示分开来写了。 爬虫部分的项目结构: 至于其效果啥的,在前都已经
阅读全文
摘要:MySQL操作:将表中相同字段的值合并 最近在操作数据库时,统计到一些数据,但由于处理不当,导致数据存在很多相同的值,如下: 在这个表中,我们可以看到”首都之窗“出现了两次,”顺义区“出现了两次,”通州区“出现了两次,这就对我之后的处理有很大问题,所以我需要将他们合并,数据列相加: sql语句为:
阅读全文
摘要:昨晚在电脑的不懈努力下,在凌晨1.42的时候它完成了工作。 我在大概晚上7-8点开始的工作, 本次爬虫大概用时六个小时左右,数据量是13256kb 这就是本次的爬虫之旅。 下一步准备在虚拟机上导入hive数据库,进行数据的清洗,统计等操作。 /********续*******/ 23:21:27 虚
阅读全文
摘要:在很多网址上,都有下一页这个button,而很多都是通过发送post请求来获取参数,今天我们就来看一下post的具体发送方式。 我之前发送一直不成功,原因是在发送json的格式上出了错,我之前写的时候,总是会把双引号改成单引号,导致发送失败。所以按照原来的post请求发送就可以,比如 这个网页的po
阅读全文
摘要:经过这些天的深思,以及在各位前辈的帮助下,我的webmagic终于突破重重险阻,成功的跑了起来,现在趁着他在跑的空余(估计要跑好一阵了,现在秒速10条左右的记录,但以我的经验来看,一会就慢了),来讲这些天的所得所感写一下,个人觉得,写博客确实是一件好事,但在规则约束下的博客并不能体现我的诚意,就像我
阅读全文
摘要:今天不做总结,(之后再补)。 在Hive中创建edu3数据仓库,并切换到edu3下。 create database edu3; use edu3; 5.在Hive创建一张表,用于存放清洗后的数据,表名为govdata,字段名、字符类型、字段解释如下: leixing string 类型 biaot
阅读全文
摘要:enmmm,今天困在了如何对知乎进行下拉操作上了,虽然可以用selenium操作,但我还不是很熟悉这个东西。。。。 首先啊,根据要求创建了数据库 首先,在知乎等网站进行初步爬取, 分析知乎的网页结构: 就是这里了,下面来整理具体位置:page.getHtml().xpath("//div[@clas
阅读全文
摘要:enmm,今天主要了解了一下信息领域热词的分析整理等内容,毕竟在爬取数据前要先找到自己想要爬取的内容,在那个网站爬取。 第一步照常还是数据采集:本人暂时选择在知乎/博客园等网站爬取相应的数据(后面再添加相应的其他网站),为什么选这两个网站,可能是因为前辈较多,做起来会比较简单。 来看一下知乎的首页,
阅读全文
摘要:补于2020年02月13日16:47:45。 在这一篇博客中,我就来讲一下postman的用法,我也只是学了个皮毛,博客也只是给自己以后忘了看看,若有不对,见谅哦。 下载的东西我就不多说了,百度上多的是。 第一点:如何确定是一个【post】请求? 举个例子: http://www.beijing.g
阅读全文
摘要:今天进入实验三,即spark读取文件系统的数据。 任务: 首先:船舰一个test.txt得文件 在idea上找到自己创建的文件: 读取文件相对于来说简单的很,关键是如何找到这个文件 第一步:导包 第二部:找文件位置 第三步:输出内容 得到的内容与源文件一样。 退出:
阅读全文
摘要:昨天说要安装一下spark,下面我们就来看一下如何安装吧。 第一步:安装spark http://spark.apache.org/downloads.html 条件: 安装成功截图: 启动sparkshell,获取spark版本 启动命令: 1.进入相应的目录:cd /usr/local/spar
阅读全文
摘要:今天呢,其实也没干啥。 以前在清洗数据的时候,我就安装过apark了,只是没有深入研究,安装的也马马虎虎,所以不能算是完整,今天试了一下,发现确实有很多错误。 接下来就是解决这方面的问题,因为有教程,有意应该会比较简单。 教程链接:http://dblab.xmu.edu.cn/blog/1307-
阅读全文
摘要:今天说实在的,没多少可说的,暂时打卡,下次补上。 补于2.7日。 前几天确实很忙,没有足够时间来学习,年后有一些事是避免不了的。 来看看这次的工作任务吧: 这次就是链接了一下虚拟机,在IDEA 上,现在IDEA很火,所以就尝试了用IDEA连接虚拟机。 借鉴网址:https://www.cnblogs
阅读全文
摘要:今天写的是第三个实验:统计学生信息 没那么多就直接上代码 1 package com.ms.firstWork 2 3 import scala.collection.mutable.ArrayBuffer 4 5 class Student(id: Int, gender: String, mat
阅读全文
摘要:今天呢,换个思路走了,先停一停数据爬虫的工作,赶赶其他作业的进度, 上次scala呢,写完了第一个实验,今天写了第二个实验,即模拟图形绘制的实验 不多说,上代码: 1 package com.ms.firstWork 2 3 object SecondWork { 4 5 def main(args
阅读全文
摘要:两天不写代码手就生的很,更不要说这好几天了。。。 刚上手手生,显示熟悉自己以前写的代码,还好自己的注释写的多,一会就了解个大概。 说说回来之后学的东西:jsoup针对之前自己不能完美的结合selenium与webmaigc,导致自己停步不前,后来我单独使用selenium得到网页源码,在使用jsou
阅读全文