masuo

2020年2月11日

摘要： enmmm，今天困在了如何对知乎进行下拉操作上了，虽然可以用selenium操作，但我还不是很熟悉这个东西。。。。首先啊，根据要求创建了数据库首先，在知乎等网站进行初步爬取，分析知乎的网页结构：就是这里了，下面来整理具体位置：page.getHtml().xpath("//div[@clas 阅读全文

posted @ 2020-02-11 21:25 masuo 阅读(110) 评论(0) 推荐(0)

2020年2月10日

寒假日报day17

摘要： enmm，今天主要了解了一下信息领域热词的分析整理等内容，毕竟在爬取数据前要先找到自己想要爬取的内容，在那个网站爬取。第一步照常还是数据采集:本人暂时选择在知乎/博客园等网站爬取相应的数据（后面再添加相应的其他网站），为什么选这两个网站，可能是因为前辈较多，做起来会比较简单。来看一下知乎的首页，阅读全文

posted @ 2020-02-10 21:40 masuo 阅读(103) 评论(0) 推荐(0)

2020年2月9日

寒假日报day16

摘要：补于2020年02月13日16:47:45。在这一篇博客中，我就来讲一下postman的用法，我也只是学了个皮毛，博客也只是给自己以后忘了看看，若有不对，见谅哦。下载的东西我就不多说了，百度上多的是。第一点：如何确定是一个【post】请求？举个例子： http://www.beijing.g 阅读全文

posted @ 2020-02-09 17:16 masuo 阅读(443) 评论(0) 推荐(0)

2020年2月8日

寒假日报day15

摘要：今天进入实验三，即spark读取文件系统的数据。任务：首先：船舰一个test.txt得文件在idea上找到自己创建的文件：读取文件相对于来说简单的很，关键是如何找到这个文件第一步：导包第二部：找文件位置第三步：输出内容得到的内容与源文件一样。退出：阅读全文

posted @ 2020-02-08 19:25 masuo 阅读(108) 评论(0) 推荐(0)

2020年2月7日

寒假日报day14

摘要：昨天说要安装一下spark，下面我们就来看一下如何安装吧。第一步：安装spark http://spark.apache.org/downloads.html 条件：安装成功截图：启动sparkshell，获取spark版本启动命令： 1.进入相应的目录：cd /usr/local/spar 阅读全文

posted @ 2020-02-07 17:42 masuo 阅读(109) 评论(0) 推荐(0)

2020年2月6日

寒假日报day13

摘要：今天呢，其实也没干啥。以前在清洗数据的时候，我就安装过apark了，只是没有深入研究，安装的也马马虎虎，所以不能算是完整，今天试了一下，发现确实有很多错误。接下来就是解决这方面的问题，因为有教程，有意应该会比较简单。教程链接：http://dblab.xmu.edu.cn/blog/1307- 阅读全文

posted @ 2020-02-06 23:21 masuo 阅读(89) 评论(0) 推荐(0)

2020年2月5日

寒假日报day12

摘要：暂时不便。。。阅读全文

posted @ 2020-02-05 22:25 masuo 阅读(73) 评论(0) 推荐(0)

2020年2月4日

寒假日报day11

摘要：今天说实在的，没多少可说的，暂时打卡，下次补上。补于2.7日。前几天确实很忙，没有足够时间来学习，年后有一些事是避免不了的。来看看这次的工作任务吧：这次就是链接了一下虚拟机，在IDEA 上，现在IDEA很火，所以就尝试了用IDEA连接虚拟机。借鉴网址：https://www.cnblogs 阅读全文

posted @ 2020-02-04 22:44 masuo 阅读(95) 评论(0) 推荐(0)

2020年2月3日

寒假日报day10

摘要：今天写的是第三个实验：统计学生信息没那么多就直接上代码 1 package com.ms.firstWork 2 3 import scala.collection.mutable.ArrayBuffer 4 5 class Student(id: Int, gender: String, mat 阅读全文

posted @ 2020-02-03 21:29 masuo 阅读(148) 评论(0) 推荐(0)

2020年2月2日

寒假日报day9

摘要：今天呢，换个思路走了，先停一停数据爬虫的工作，赶赶其他作业的进度，上次scala呢，写完了第一个实验，今天写了第二个实验，即模拟图形绘制的实验不多说，上代码: 1 package com.ms.firstWork 2 3 object SecondWork { 4 5 def main(args 阅读全文

posted @ 2020-02-02 18:25 masuo 阅读(128) 评论(0) 推荐(0)

公告