爬取用户信息

第一节课我的任务是和组长一起爬取网易云评论数据,然后我在博客园里找到了代码复制到pycharm里面看看能不能运行出来,代码如下

刚开始第七行一直报错我发现自己没导包,然后导aes和crypto的时候一直导不出来

我试了差不多五次终于导进去了,不过网易云一直爬不出来显示没有crypto这个模块,然后我就放弃了,就尝试自己爬取了段子网上的数据用了两节课到最后成功了,过程也遇到了一些小问题(数据库连接字段问题,字段名和数据库名定义不一致,字段类型小,数据导不进去),不过自己对着老师讲糗事百科的代码都解决了

爬取成功后我就想着再爬取一个网站:新乡市人民政府官网结果运行不出来,错误原因如下显示抓取不到数据

爬取的标签对着嘞就是网站上的网页只有一页不能用for循环然后就想着复制之前老师学教过的代码然后就下课了

 

12.3

上午试着把段子网爬出来的数据链接到数据库中, 连接数据库的时候我定义了两个字段,输出也要两个字段,还是一直错,错误提示是连接不到数据库,错误原因是数据导不到数据库表中,然后我看了看数据类型,发现数据类型是vote(10),转念一想,爬出的数据远远大于10个字符,改成vote(500)结果成功把数据放在表中了。

然后我就试着爬取纵横小说书名作者名还有内容,第一个错误是找不到find,这个小说网站是静态网页我用了for循环然后我就复制之前联系单个页面爬取数据的代码,把抓取标签前部分换成复制的代码,然后通过一层层抓取页面所有元素的数据,大部分的html会有id或者class属性,每一个html标签只能有一个id属性,并且属性里的数据必须是整个文档里唯一的。class属性是用来对同一个值的标签进行样式处理,我们可以用这两个属性来定位我们想要的信息,最后抓取到了书名作者名和简介

12.4

今天上午尝试爬取iteye社区网站的用户数据,没有遇到大的问题,我是先导包,然后建立与数据库的连接,创建游标操作设置为字典类型,然后执行init,然后返回,语句结束后执行exit提交数据库执行,然后关闭游标,随后关闭数据库链接,然后定义一个函数,复制上拼接头然后解析,接下来就是定义一个函数抓取数据了,首先抓取祖父节点,然后抓取父节点一层层嵌套,一层层抓取,用一个for循环寻找标签,插入数据库里,创建main函数创建数据库链接,最后输出,抓取数据到表里面。随后我就一直看之前老师讲过的糗事百科的代码并从头到尾默读代码的意思

 

 

 

posted @ 2020-12-02 19:54  醉~人军  阅读(169)  评论(0)    收藏  举报