随笔档案「2021年10月」 - 喜欢爬的孩子

20211031当天完成的任务

摘要：主要是学习莫烦关于自然语言处理的相关内容：关于数据的继续爬取阅读全文

posted @ 2021-10-31 21:42 喜欢爬的孩子阅读(25) 评论(0) 推荐(0)

20211030当天完成的任务

摘要：对摘要进行简单的处理。熟悉关键字提取、切词、自动摘要、短语提取、自动摘要加关键字提取等相关操作继续下载pdf 阅读全文

posted @ 2021-10-30 22:06 喜欢爬的孩子阅读(26) 评论(0) 推荐(0)

20211029当天完成的任务

摘要：pdf的下载作者成员的提取、按作者类别获取数据阅读全文

posted @ 2021-10-29 22:32 喜欢爬的孩子阅读(22) 评论(0) 推荐(0)

20211028当天完成的任务

摘要：整理之前按类别获得的数据，之后通过我们获得的数据进行pdf文档的下载：将文档中包含的所有作者抽取出来。阅读全文

posted @ 2021-10-28 19:50 喜欢爬的孩子阅读(21) 评论(0) 推荐(0)

20211027当天完成的任务

摘要：主要完成部分：对数据集继续进行扩充：之后进行对应文档的pdf下载操作：代码如下：代码稍微有点问题，明天在进行修改，明天完成pdf下载和之前下载数据中作者名字获取。之后通过作者的名字在下载他们发表的对应文章信息。阅读全文

posted @ 2021-10-27 22:18 喜欢爬的孩子阅读(41) 评论(0) 推荐(0)

20211026当天完成的任务

摘要：数据的爬取操作：将我的爬取代码进行了优化。进行分类查询，按多种关键字进行数据的获取。将爬取到的数据存放在excel中。到今天爬取的数据量大约是20万条数据，总共类别的excel如下所示：每个excel中的sheet分类如下所示：完成了课程实践的报告编写，里面用到的主要是pandas和pand 阅读全文

posted @ 2021-10-26 22:36 喜欢爬的孩子阅读(60) 评论(0) 推荐(0)

20211025一周的计划

摘要：部分一：通过原有的接口，继续进行数据的爬取操作，让自己使用接口更加熟练，收集的数据集，达到最少五十万以上（最好100万以上）。部分二：通过我获取的文档信息，对支持下载的数据文档进行下载，做到能下载的尽量全部下载下来。部分三：按类型进行文档的爬取例如：人工智能、大数据等等。按作者进行文档的阅读全文

posted @ 2021-10-25 21:37 喜欢爬的孩子阅读(53) 评论(0) 推荐(0)

悄悄成长

10 2021 档案

公告