2020 年 2月随笔档案 - masuo

关于“淘宝”得六个常见质量属性场景的描绘

摘要：首先啊，先来了解一下质量属性的六个常见属性与质量属性场景得定义。质量属性的六个常见属性 1.可用性 2.可修改性 3.性能 4.安全性 5.可测试性 6.易用性质量属性场景包含六部分：刺激源：这是某个生成该刺激的实体（人、计算机系统或者任何其他刺激器）。刺激：该刺激是当刺激到达系统时需要考阅读全文

posted @ 2020-02-23 13:06 masuo 阅读(281) 评论(0) 推荐(0)

spark学习之sparkSql基本操作

摘要：第一周学习总结总结了近期学到的爬虫知识与echarts调用学习，每天的代码时间在2俩小时以上。近期还会总结一下spark'得学习记录。三、实验内容和要求 1．Spark SQL 基本操作将下列 JSON 格式数据复制到 Linux 系统中，并保存命名为 employee.json。 { "i 阅读全文

posted @ 2020-02-22 19:50 masuo 阅读(665) 评论(0) 推荐(0)

全国疫情数据展示

摘要：在老师的号召下，我花了将近三四天的时间弄了这个疫情图，现在还是很简陋的，具体数据啥的不便透露。看图：第一张图：是全国每日疫情数据统计，红色为累计确诊病例，剩下的这上面都有解释，我也看不太清颜色。右边的y轴对应的数据是最大的那条线的取值。第二张图：全国疫情地图，数据不好搞，只能手动了。 enm 阅读全文

posted @ 2020-02-19 20:37 masuo 阅读(1771) 评论(0) 推荐(0)

架构漫谈1

摘要：在读了王概凯的架构漫谈“九部曲”之后，我对架构有了那么认识，但就像作者说的，没有实战，就不能说自己懂了，只是皮毛而已。在我读了这篇文章后，对架构的认识就是“切分”，分而治之。 1、什么是架构？在我看来呢，架构分为两部分，一部分是“框架”，另一部分是“构成”，框架就是对于一个问题的界定，尽可能阅读全文

posted @ 2020-02-19 18:08 masuo 阅读(98) 评论(0) 推荐(0)

如何将本地工程上传到github

摘要：今天想把工作区间的一些无用工程删一下，但是这些有那么一点用的工程还是不忍心删掉，所以就想把他上传到github。下面呢，我们就来说一下如何将本地工程上传到github 第一步，先在github上创建一个仓库，在首页，点击这个Repositories旁边的new。第二步，填写信息，重点是name，阅读全文

posted @ 2020-02-18 15:50 masuo 阅读(328) 评论(0) 推荐(1)

寒假日报day23

摘要：oh，suck。本来想着今天enmm，安装spark，安好了，做一下试验，开始还觉得比较简单，但是越来越，我就做不动了。。将将做到了实验五，前面还没有全部做完，，，陌生，空白。剩下的时间，重装一下sqoop吧，因为虚拟机崩了一次，装的sqoop也没有了。阅读全文

posted @ 2020-02-16 21:09 masuo 阅读(80) 评论(0) 推荐(0)

寒假日报----首都之窗爬虫大作业

摘要：enmmm，这个大作业费了我整整一个假期，终于写完了。要说实际工作时间的话，应该在两个星期左右，主要是对webmagic的不了解，了解webmagic用了大概一个星期，后面基本一天就能完成一个小阶段。来看看项目结构吧，我把爬虫与展示分开来写了。爬虫部分的项目结构：至于其效果啥的，在前都已经阅读全文

posted @ 2020-02-15 20:55 masuo 阅读(94) 评论(0) 推荐(0)

寒假日报day22

摘要：MySQL操作：将表中相同字段的值合并最近在操作数据库时，统计到一些数据，但由于处理不当，导致数据存在很多相同的值，如下：在这个表中，我们可以看到”首都之窗“出现了两次，”顺义区“出现了两次，”通州区“出现了两次，这就对我之后的处理有很大问题，所以我需要将他们合并，数据列相加： sql语句为：阅读全文

posted @ 2020-02-15 12:11 masuo 阅读(83) 评论(0) 推荐(0)

寒假日报day21

摘要：昨晚在电脑的不懈努力下，在凌晨1.42的时候它完成了工作。我在大概晚上7-8点开始的工作，本次爬虫大概用时六个小时左右，数据量是13256kb 这就是本次的爬虫之旅。下一步准备在虚拟机上导入hive数据库，进行数据的清洗，统计等操作。 /********续*******/ 23:21:27 虚阅读全文

posted @ 2020-02-14 10:18 masuo 阅读(87) 评论(0) 推荐(0)

关于webmagic的post请求

摘要：在很多网址上，都有下一页这个button，而很多都是通过发送post请求来获取参数，今天我们就来看一下post的具体发送方式。我之前发送一直不成功，原因是在发送json的格式上出了错，我之前写的时候，总是会把双引号改成单引号，导致发送失败。所以按照原来的post请求发送就可以，比如这个网页的po 阅读全文

posted @ 2020-02-13 17:48 masuo 阅读(2132) 评论(0) 推荐(0)

寒假日报day20

摘要：经过这些天的深思，以及在各位前辈的帮助下，我的webmagic终于突破重重险阻，成功的跑了起来，现在趁着他在跑的空余（估计要跑好一阵了，现在秒速10条左右的记录，但以我的经验来看，一会就慢了），来讲这些天的所得所感写一下，个人觉得，写博客确实是一件好事，但在规则约束下的博客并不能体现我的诚意，就像我阅读全文

posted @ 2020-02-13 16:48 masuo 阅读(127) 评论(0) 推荐(0)

寒假日报day19

摘要：今天不做总结，（之后再补）。在Hive中创建edu3数据仓库，并切换到edu3下。 create database edu3; use edu3; 5.在Hive创建一张表，用于存放清洗后的数据，表名为govdata，字段名、字符类型、字段解释如下： leixing string 类型 biaot 阅读全文

posted @ 2020-02-12 21:51 masuo 阅读(111) 评论(0) 推荐(0)

寒假日报day18

摘要：enmmm，今天困在了如何对知乎进行下拉操作上了，虽然可以用selenium操作，但我还不是很熟悉这个东西。。。。首先啊，根据要求创建了数据库首先，在知乎等网站进行初步爬取，分析知乎的网页结构：就是这里了，下面来整理具体位置：page.getHtml().xpath("//div[@clas 阅读全文

posted @ 2020-02-11 21:25 masuo 阅读(99) 评论(0) 推荐(0)

寒假日报day17

摘要：enmm，今天主要了解了一下信息领域热词的分析整理等内容，毕竟在爬取数据前要先找到自己想要爬取的内容，在那个网站爬取。第一步照常还是数据采集:本人暂时选择在知乎/博客园等网站爬取相应的数据（后面再添加相应的其他网站），为什么选这两个网站，可能是因为前辈较多，做起来会比较简单。来看一下知乎的首页，阅读全文

posted @ 2020-02-10 21:40 masuo 阅读(96) 评论(0) 推荐(0)

寒假日报day16

摘要：补于2020年02月13日16:47:45。在这一篇博客中，我就来讲一下postman的用法，我也只是学了个皮毛，博客也只是给自己以后忘了看看，若有不对，见谅哦。下载的东西我就不多说了，百度上多的是。第一点：如何确定是一个【post】请求？举个例子： http://www.beijing.g 阅读全文

posted @ 2020-02-09 17:16 masuo 阅读(432) 评论(0) 推荐(0)

寒假日报day15

摘要：今天进入实验三，即spark读取文件系统的数据。任务：首先：船舰一个test.txt得文件在idea上找到自己创建的文件：读取文件相对于来说简单的很，关键是如何找到这个文件第一步：导包第二部：找文件位置第三步：输出内容得到的内容与源文件一样。退出：阅读全文

posted @ 2020-02-08 19:25 masuo 阅读(96) 评论(0) 推荐(0)

寒假日报day14

摘要：昨天说要安装一下spark，下面我们就来看一下如何安装吧。第一步：安装spark http://spark.apache.org/downloads.html 条件：安装成功截图：启动sparkshell，获取spark版本启动命令： 1.进入相应的目录：cd /usr/local/spar 阅读全文

posted @ 2020-02-07 17:42 masuo 阅读(98) 评论(0) 推荐(0)

寒假日报day13

摘要：今天呢，其实也没干啥。以前在清洗数据的时候，我就安装过apark了，只是没有深入研究，安装的也马马虎虎，所以不能算是完整，今天试了一下，发现确实有很多错误。接下来就是解决这方面的问题，因为有教程，有意应该会比较简单。教程链接：http://dblab.xmu.edu.cn/blog/1307- 阅读全文

posted @ 2020-02-06 23:21 masuo 阅读(82) 评论(0) 推荐(0)

寒假日报day12

摘要：暂时不便。。。阅读全文

posted @ 2020-02-05 22:25 masuo 阅读(69) 评论(0) 推荐(0)

寒假日报day11

摘要：今天说实在的，没多少可说的，暂时打卡，下次补上。补于2.7日。前几天确实很忙，没有足够时间来学习，年后有一些事是避免不了的。来看看这次的工作任务吧：这次就是链接了一下虚拟机，在IDEA 上，现在IDEA很火，所以就尝试了用IDEA连接虚拟机。借鉴网址：https://www.cnblogs 阅读全文

posted @ 2020-02-04 22:44 masuo 阅读(84) 评论(0) 推荐(0)

寒假日报day10

摘要：今天写的是第三个实验：统计学生信息没那么多就直接上代码 1 package com.ms.firstWork 2 3 import scala.collection.mutable.ArrayBuffer 4 5 class Student(id: Int, gender: String, mat 阅读全文

posted @ 2020-02-03 21:29 masuo 阅读(135) 评论(0) 推荐(0)

寒假日报day9

摘要：今天呢，换个思路走了，先停一停数据爬虫的工作，赶赶其他作业的进度，上次scala呢，写完了第一个实验，今天写了第二个实验，即模拟图形绘制的实验不多说，上代码: 1 package com.ms.firstWork 2 3 object SecondWork { 4 5 def main(args 阅读全文

posted @ 2020-02-02 18:25 masuo 阅读(122) 评论(0) 推荐(0)

寒假日报day8

摘要：两天不写代码手就生的很，更不要说这好几天了。。。刚上手手生，显示熟悉自己以前写的代码，还好自己的注释写的多，一会就了解个大概。说说回来之后学的东西：jsoup针对之前自己不能完美的结合selenium与webmaigc，导致自己停步不前，后来我单独使用selenium得到网页源码，在使用jsou 阅读全文

posted @ 2020-02-01 19:16 masuo 阅读(136) 评论(0) 推荐(0)

masuo

02 2020 档案

公告