会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
masuo
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
9
···
16
下一页
2020年2月11日
寒假日报day18
摘要: enmmm,今天困在了如何对知乎进行下拉操作上了,虽然可以用selenium操作,但我还不是很熟悉这个东西。。。。 首先啊,根据要求创建了数据库 首先,在知乎等网站进行初步爬取, 分析知乎的网页结构: 就是这里了,下面来整理具体位置:page.getHtml().xpath("//div[@clas
阅读全文
posted @ 2020-02-11 21:25 masuo
阅读(104)
评论(0)
推荐(0)
2020年2月10日
寒假日报day17
摘要: enmm,今天主要了解了一下信息领域热词的分析整理等内容,毕竟在爬取数据前要先找到自己想要爬取的内容,在那个网站爬取。 第一步照常还是数据采集:本人暂时选择在知乎/博客园等网站爬取相应的数据(后面再添加相应的其他网站),为什么选这两个网站,可能是因为前辈较多,做起来会比较简单。 来看一下知乎的首页,
阅读全文
posted @ 2020-02-10 21:40 masuo
阅读(99)
评论(0)
推荐(0)
2020年2月9日
寒假日报day16
摘要: 补于2020年02月13日16:47:45。 在这一篇博客中,我就来讲一下postman的用法,我也只是学了个皮毛,博客也只是给自己以后忘了看看,若有不对,见谅哦。 下载的东西我就不多说了,百度上多的是。 第一点:如何确定是一个【post】请求? 举个例子: http://www.beijing.g
阅读全文
posted @ 2020-02-09 17:16 masuo
阅读(435)
评论(0)
推荐(0)
2020年2月8日
寒假日报day15
摘要: 今天进入实验三,即spark读取文件系统的数据。 任务: 首先:船舰一个test.txt得文件 在idea上找到自己创建的文件: 读取文件相对于来说简单的很,关键是如何找到这个文件 第一步:导包 第二部:找文件位置 第三步:输出内容 得到的内容与源文件一样。 退出:
阅读全文
posted @ 2020-02-08 19:25 masuo
阅读(104)
评论(0)
推荐(0)
2020年2月7日
寒假日报day14
摘要: 昨天说要安装一下spark,下面我们就来看一下如何安装吧。 第一步:安装spark http://spark.apache.org/downloads.html 条件: 安装成功截图: 启动sparkshell,获取spark版本 启动命令: 1.进入相应的目录:cd /usr/local/spar
阅读全文
posted @ 2020-02-07 17:42 masuo
阅读(104)
评论(0)
推荐(0)
2020年2月6日
寒假日报day13
摘要: 今天呢,其实也没干啥。 以前在清洗数据的时候,我就安装过apark了,只是没有深入研究,安装的也马马虎虎,所以不能算是完整,今天试了一下,发现确实有很多错误。 接下来就是解决这方面的问题,因为有教程,有意应该会比较简单。 教程链接:http://dblab.xmu.edu.cn/blog/1307-
阅读全文
posted @ 2020-02-06 23:21 masuo
阅读(85)
评论(0)
推荐(0)
2020年2月5日
寒假日报day12
摘要: 暂时不便。。。
阅读全文
posted @ 2020-02-05 22:25 masuo
阅读(70)
评论(0)
推荐(0)
2020年2月4日
寒假日报day11
摘要: 今天说实在的,没多少可说的,暂时打卡,下次补上。 补于2.7日。 前几天确实很忙,没有足够时间来学习,年后有一些事是避免不了的。 来看看这次的工作任务吧: 这次就是链接了一下虚拟机,在IDEA 上,现在IDEA很火,所以就尝试了用IDEA连接虚拟机。 借鉴网址:https://www.cnblogs
阅读全文
posted @ 2020-02-04 22:44 masuo
阅读(92)
评论(0)
推荐(0)
2020年2月3日
寒假日报day10
摘要: 今天写的是第三个实验:统计学生信息 没那么多就直接上代码 1 package com.ms.firstWork 2 3 import scala.collection.mutable.ArrayBuffer 4 5 class Student(id: Int, gender: String, mat
阅读全文
posted @ 2020-02-03 21:29 masuo
阅读(141)
评论(0)
推荐(0)
2020年2月2日
寒假日报day9
摘要: 今天呢,换个思路走了,先停一停数据爬虫的工作,赶赶其他作业的进度, 上次scala呢,写完了第一个实验,今天写了第二个实验,即模拟图形绘制的实验 不多说,上代码: 1 package com.ms.firstWork 2 3 object SecondWork { 4 5 def main(args
阅读全文
posted @ 2020-02-02 18:25 masuo
阅读(126)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
16
下一页
公告