10 2021 档案
摘要:主要是学习莫烦关于自然语言处理的相关内容: 关于数据的继续爬取
阅读全文
摘要:对摘要进行简单的处理。熟悉关键字提取、切词、自动摘要、短语提取、自动摘要加关键字提取等相关操作 继续下载pdf
阅读全文
摘要:pdf的下载 作者成员的提取、 按作者类别获取数据
阅读全文
摘要:整理之前按类别获得的数据,之后通过我们获得的数据进行pdf文档的下载: 将文档中包含的所有作者抽取出来。
阅读全文
摘要:主要完成部分: 对数据集继续进行扩充: 之后进行对应文档的pdf下载操作: 代码如下: 代码稍微有点问题,明天在进行修改,明天完成pdf下载和之前下载数据中作者名字获取。之后通过作者的名字在下载他们发表的对应文章信息。
阅读全文
摘要:数据的爬取操作: 将我的爬取代码进行了优化。进行分类查询,按多种关键字进行数据的获取。将爬取到的数据存放在excel中。到今天爬取的数据量大约是20万条数据, 总共类别的excel如下所示: 每个excel中的sheet分类如下所示: 完成了课程实践的报告编写,里面用到的主要是pandas和pand
阅读全文
摘要:部分一: 通过原有的接口,继续进行数据的爬取操作,让自己使用接口更加熟练,收集的数据集,达到最少五十万以上(最好100万以上)。 部分二: 通过我获取的文档信息,对支持下载的数据文档进行下载,做到能下载的尽量全部下载下来。 部分三: 按类型进行文档的爬取例如:人工智能、大数据等等。 按作者进行文档的
阅读全文