会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
冯晨
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
23
下一页
2020年9月29日
毕业设计每日博客--星期二
摘要: 今天完成了第二层链接爬取的设计,在爬取时发现了一个问题,爬取全部的链接,足足有几百万条可能更多,而使用谷歌驱动的缺点就是,爬取速度特别慢,如果网速差的话更慢,再加上防止知网访问频繁的验证码问题,必需加上休眠,如果要爬取所有链接,运行22天不断才能爬取完成,这还只是链接,所以准备修改代码,每一个专辑只
阅读全文
posted @ 2020-09-29 18:24 集
阅读(98)
评论(0)
推荐(0)
2020年9月28日
毕业设计每日博客--星期一
摘要: 根据上周的爬取经验,发现bs4,request等直接访问请求头的方法,很难能够爬取知网,不是找不到内容在哪里,就是访问出错,不知道是访问时携带数据的问题,还是被发现是代码访问,被拦截。 所以改变思路使用谷歌驱动器进行爬取,今天完成了第一次专辑链接的爬取。
阅读全文
posted @ 2020-09-28 14:20 集
阅读(72)
评论(0)
推荐(0)
毕业设计一周计划
摘要: 本周计划完成知网爬虫,并初步搭建界面设计(学习使用SSH架构)。
阅读全文
posted @ 2020-09-28 14:17 集
阅读(107)
评论(0)
推荐(0)
2020年9月27日
毕业设计每日博客--星期天
摘要: 今天依旧进行大作业数据的爬取,知网好像修改了结构,寻找数据所在的请求中。。。。
阅读全文
posted @ 2020-09-27 10:05 集
阅读(122)
评论(0)
推荐(0)
2020年9月25日
毕业设计每日博客--星期五
摘要: 今天完成了数据的抽取,并模仿案例2做了问答机器人的设计,该开始大作业的数据爬取了。
阅读全文
posted @ 2020-09-25 21:53 集
阅读(83)
评论(0)
推荐(0)
2020年9月24日
毕业设计每日博客--星期四
摘要: 今天在寻找算法的关系抽取时,发现时间已经不多了,也许我改换个思路,发现民航的数据,规律性很强,也许我该使用规则的方法进行实体关系的抽取。使用规则的方法抽取中。
阅读全文
posted @ 2020-09-24 20:02 集
阅读(64)
评论(0)
推荐(0)
2020年9月23日
毕业设计每日博客--星期三
摘要: 今天做实验时,发现老师给了实体提取代码和关系抽取代码,实体提取为LSTM,但是需要大量的实体标注,一个耗时耗力的工作,但是我的时间已经不多了,关系抽取,用的是hanlp的关系抽取,对于民航多数字这样的数据,抽取效果有点差,尝试寻找算法的关系抽取。
阅读全文
posted @ 2020-09-23 20:48 集
阅读(83)
评论(0)
推荐(0)
2020年9月22日
毕业设计每日博客--星期二
摘要: 今天运行了一个英文实体提取算法,但是只能提取英文的内容,中文的实体提取项目,需要下载词向量,下载了好一会,最后也是没有运行出来。
阅读全文
posted @ 2020-09-22 19:55 集
阅读(167)
评论(0)
推荐(0)
2020年9月21日
毕业设计每日博客--星期一
摘要: 今天浏览了大作业数据,准备以不同地区,不同时间为实体,属性包括周转量等等,关系为增加,增长。 并在GitHub下载了一下实体提取算法,尝试运行中。
阅读全文
posted @ 2020-09-21 18:51 集
阅读(54)
评论(0)
推荐(0)
毕业设计一周计划
摘要: 本周计划,完成爬取知网数据任务,完成老师实验及大作业任务。
阅读全文
posted @ 2020-09-21 18:18 集
阅读(99)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
23
下一页
公告