上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页
摘要: enmmm,今天困在了如何对知乎进行下拉操作上了,虽然可以用selenium操作,但我还不是很熟悉这个东西。。。。 首先啊,根据要求创建了数据库 首先,在知乎等网站进行初步爬取, 分析知乎的网页结构: 就是这里了,下面来整理具体位置:page.getHtml().xpath("//div[@clas 阅读全文
posted @ 2020-02-11 21:25 masuo 阅读(104) 评论(0) 推荐(0)
摘要: enmm,今天主要了解了一下信息领域热词的分析整理等内容,毕竟在爬取数据前要先找到自己想要爬取的内容,在那个网站爬取。 第一步照常还是数据采集:本人暂时选择在知乎/博客园等网站爬取相应的数据(后面再添加相应的其他网站),为什么选这两个网站,可能是因为前辈较多,做起来会比较简单。 来看一下知乎的首页, 阅读全文
posted @ 2020-02-10 21:40 masuo 阅读(99) 评论(0) 推荐(0)
摘要: 补于2020年02月13日16:47:45。 在这一篇博客中,我就来讲一下postman的用法,我也只是学了个皮毛,博客也只是给自己以后忘了看看,若有不对,见谅哦。 下载的东西我就不多说了,百度上多的是。 第一点:如何确定是一个【post】请求? 举个例子: http://www.beijing.g 阅读全文
posted @ 2020-02-09 17:16 masuo 阅读(435) 评论(0) 推荐(0)
摘要: 今天进入实验三,即spark读取文件系统的数据。 任务: 首先:船舰一个test.txt得文件 在idea上找到自己创建的文件: 读取文件相对于来说简单的很,关键是如何找到这个文件 第一步:导包 第二部:找文件位置 第三步:输出内容 得到的内容与源文件一样。 退出: 阅读全文
posted @ 2020-02-08 19:25 masuo 阅读(104) 评论(0) 推荐(0)
摘要: 昨天说要安装一下spark,下面我们就来看一下如何安装吧。 第一步:安装spark http://spark.apache.org/downloads.html 条件: 安装成功截图: 启动sparkshell,获取spark版本 启动命令: 1.进入相应的目录:cd /usr/local/spar 阅读全文
posted @ 2020-02-07 17:42 masuo 阅读(104) 评论(0) 推荐(0)
摘要: 今天呢,其实也没干啥。 以前在清洗数据的时候,我就安装过apark了,只是没有深入研究,安装的也马马虎虎,所以不能算是完整,今天试了一下,发现确实有很多错误。 接下来就是解决这方面的问题,因为有教程,有意应该会比较简单。 教程链接:http://dblab.xmu.edu.cn/blog/1307- 阅读全文
posted @ 2020-02-06 23:21 masuo 阅读(85) 评论(0) 推荐(0)
摘要: 暂时不便。。。 阅读全文
posted @ 2020-02-05 22:25 masuo 阅读(70) 评论(0) 推荐(0)
摘要: 今天说实在的,没多少可说的,暂时打卡,下次补上。 补于2.7日。 前几天确实很忙,没有足够时间来学习,年后有一些事是避免不了的。 来看看这次的工作任务吧: 这次就是链接了一下虚拟机,在IDEA 上,现在IDEA很火,所以就尝试了用IDEA连接虚拟机。 借鉴网址:https://www.cnblogs 阅读全文
posted @ 2020-02-04 22:44 masuo 阅读(92) 评论(0) 推荐(0)
摘要: 今天写的是第三个实验:统计学生信息 没那么多就直接上代码 1 package com.ms.firstWork 2 3 import scala.collection.mutable.ArrayBuffer 4 5 class Student(id: Int, gender: String, mat 阅读全文
posted @ 2020-02-03 21:29 masuo 阅读(141) 评论(0) 推荐(0)
摘要: 今天呢,换个思路走了,先停一停数据爬虫的工作,赶赶其他作业的进度, 上次scala呢,写完了第一个实验,今天写了第二个实验,即模拟图形绘制的实验 不多说,上代码: 1 package com.ms.firstWork 2 3 object SecondWork { 4 5 def main(args 阅读全文
posted @ 2020-02-02 18:25 masuo 阅读(126) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页