爬虫技术 - 随笔分类 - 枫客＆浪人

抓取人人网中学校名称信息

摘要：今天老大让采集人人网中资料页面内的各个地区的学校名称思路分析： 1. 获得高校数据地址：http://s.xnimg.cn/a44177/allunivlist.js （通过分析页面请求确定为该文件）对该文件进行人工分析，结合页面弹出框，可以得知，该js文件包含了国家、城市、学校信息。文件阅读全文

posted @ 2017-11-24 21:16 枫客＆浪人阅读(497) 评论(0) 推荐(0)

如何设置爬虫断点续传

摘要：有时候我们爬取数据跑了半天，突然报错了，例如网络中断，我们想继续爬取，不需程序从头开始爬取，可以采取下面的方案要想程序继续从断开的位置爬取，最好的方案就是将每次爬取的url存储到数据库中，程序每爬取一个url判断数据库中是否存在存在说明爬取过了，跳过本次url，如果没有，那就证明没有爬取过，程序继阅读全文

posted @ 2017-10-19 16:22 枫客＆浪人阅读(4925) 评论(0) 推荐(1)

scrapy爬取数据进行数据库存储和本地存储

摘要：今天记录下scrapy将数据存储到本地和数据库中，不是不会写，因为小编每次都写觉得都一样，所以记录下，以后直接用就可以了-^o^- １．本地存储设置pipel ines.py 2. 存储到ＭongoＤB数据库设置setting文件设置pipel ines.py 3.MySql数据库存储设置s 阅读全文

posted @ 2017-10-14 16:37 枫客＆浪人阅读(446) 评论(0) 推荐(0)

HTTP响应状态解析

摘要：100客户端应当继续发送请求。这个临时响应是用来通知客户端它的部分请求已经被服务器接收，且仍未被拒绝。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。服务器必须在请求完成后向客户端发送一个最终响应。101服务器已经理解了客户端的请求，并将通过Upgrade 消息头通知客户端采用不同的协议来完成这个请求。在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定... 阅读全文

posted @ 2017-10-14 16:05 枫客＆浪人阅读(423) 评论(0) 推荐(0)

反爬虫机制方法ＡＰＩ

摘要：今天来总结下爬虫常见的反反爬取手段的方法，以后直接复制调用即可……^o^ 1.设置Ｕser-Agent(随机获取) 结合scrapy框架结合scrapy框架 (1) 配置setting.py (2) 配置middlewares.py 2.设置ＩＰ代理代理网址获取：http://www.gouba 阅读全文

posted @ 2017-10-14 16:00 枫客＆浪人阅读(647) 评论(0) 推荐(0)

爬虫系列之解决动态数据获取(一)

摘要：有时候，我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现，我们要提取的网页元素并不在我们下载到的HTML之中，尽管它们在浏览器里看起来唾手可得。这说明我们想要的元素是在我们的某些操作下通过js事件动态生成的。举个例子，我们在刷QQ空间或者微博评论的时候，一直往下刷，网页越来越长，内容越来越多，就是这个让人又爱又恨的动态加载。爬取动态页面目前来说有两种方法 ... 阅读全文

posted @ 2017-10-14 15:58 枫客＆浪人阅读(5402) 评论(0) 推荐(1)

Scrapy定时执行爬取任务与定时关闭任务

摘要：当我们利用Ｐython　scrapy框架写完脚本后，脚本已经可以稳定的进行数据的爬取，但是每次需要手动的执行，太麻烦，如果能自动运行，在自动关闭那就好了，经过小编研究，完全是可以实现的，今天小编介绍２种方案来解决这个问题由于scrapy框架本身没有提供这样的功能，所以小编采用了linux 中cro 阅读全文

posted @ 2017-10-14 15:50 枫客＆浪人阅读(6582) 评论(0) 推荐(0)

笑看人世冷暖

随笔分类 - 爬虫技术

公告