随笔分类 -  爬虫技术

摘要:今天老大让采集人人网中资料页面内的各个地区的学校名称 思路分析: 1. 获得高校数据 地址:http://s.xnimg.cn/a44177/allunivlist.js (通过分析页面请求确定为该文件) 对该文件进行人工分析,结合页面弹出框,可以得知,该js文件包含了 国家、城市、学校 信息。文件 阅读全文
posted @ 2017-11-24 21:16 枫客&浪人 阅读(497) 评论(0) 推荐(0)
摘要:有时候我们爬取数据跑了半天,突然报错了,例如网络中断,我们想继续爬取,不需程序从头开始爬取,可以采取下面的方案 要想程序继续从断开的位置爬取,最好的方案就是将每次爬取的url存储到数据库中,程序每爬取一个url判断数据库中是否存在存在说明爬取过了,跳过本次url,如果没有,那就证明没有爬取过,程序继 阅读全文
posted @ 2017-10-19 16:22 枫客&浪人 阅读(4925) 评论(0) 推荐(1)
摘要:今天记录下scrapy将数据存储到本地和数据库中,不是不会写,因为小编每次都写觉得都一样,所以记录下,以后直接用就可以了-^o^- 1.本地存储 设置pipel ines.py 2. 存储到MongoDB数据库 设置setting文件 设置pipel ines.py 3.MySql数据库存储 设置s 阅读全文
posted @ 2017-10-14 16:37 枫客&浪人 阅读(446) 评论(0) 推荐(0)
摘要:100客户端应当继续发送请求。这个临时响应是用来通知客户端它的部分请求已经被服务器接收,且仍未被拒绝。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。服务器必须在请求完成后向客户端发送一个最终响应。101服务器已经理解了客户端的请求,并将通过Upgrade 消息头通知客户端采用不同的协议来完成这个请求。在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定... 阅读全文
posted @ 2017-10-14 16:05 枫客&浪人 阅读(423) 评论(0) 推荐(0)
摘要:今天来总结下爬虫常见的反反爬取手段的方法,以后直接复制调用即可……^o^ 1.设置User-Agent(随机获取) 结合scrapy框架 结合scrapy框架 (1) 配置setting.py (2) 配置middlewares.py 2.设置IP代理 代理网址获取:http://www.gouba 阅读全文
posted @ 2017-10-14 16:00 枫客&浪人 阅读(646) 评论(0) 推荐(0)
摘要:有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现,我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起来唾手可得。 这说明我们想要的元素是在我们的某些操作下通过js事件动态生成的。举个例子,我们在刷QQ空间或者微博评论的时候,一直往下刷,网页越来越长,内容越来越多,就是这个让人又爱又恨的动态加载。爬取动态页面目前来说有两种方法 ... 阅读全文
posted @ 2017-10-14 15:58 枫客&浪人 阅读(5401) 评论(0) 推荐(1)
摘要:当我们利用Python scrapy框架写完脚本后,脚本已经可以稳定的进行数据的爬取,但是每次需要手动的执行,太麻烦,如果能自动运行,在自动关闭那就好了,经过小编研究,完全是可以实现的,今天小编介绍2种方案来解决这个问题 由于scrapy框架本身没有提供这样的功能,所以小编采用了linux 中cro 阅读全文
posted @ 2017-10-14 15:50 枫客&浪人 阅读(6581) 评论(0) 推荐(0)