随笔分类 -  python爬虫

摘要:在爬取数据时有时候有些文件数据需要爬取下载下来使用多线程下载可以让程序跑的更快点。 scrapy中有个扩展可以使用扩展模块来实现下载。 在自己的spider中加入 custom_settings 在要下载的时候添加 阅读全文
posted @ 2017-07-12 20:58 sea101 阅读(936) 评论(0) 推荐(0)
摘要:selenium是一个web测试应用框架也可以拿来做爬虫。 1.安装selenium模块 pip install -U selenium 2.安装selenium模块后需要有相应的浏览器驱动 A.使用phantomjs phantomjs是无界面的测试浏览器 我用的是phantomjs-2.1.0- 阅读全文
posted @ 2017-06-24 18:22 sea101 阅读(281) 评论(0) 推荐(0)
摘要:使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 如果出现这个HTTP status code is not handled or not allowed 错误 说明还有spi 阅读全文
posted @ 2017-06-23 13:12 sea101 阅读(1134) 评论(0) 推荐(0)
摘要:scrapy 验证码登录程序, https://accounts.douban.com/login 豆瓣的登录程序 github完整代码链接地址: https://github.com/sea1234/myyangzhengma 阅读全文
posted @ 2017-06-22 13:16 sea101 阅读(2332) 评论(0) 推荐(0)
摘要:伪装浏览器代理 在爬取网页是有些服务器对请求过滤的不是很高可以不用ip来伪装请求直接将自己的浏览器信息给伪装也是可以的。 第一中方法: 1.在setting.py文件中加入以下内容,这是一些浏览器的头信息 1 # encoding: utf-8 2 from scrapy.utils.project 阅读全文
posted @ 2017-06-19 20:55 sea101 阅读(8343) 评论(0) 推荐(2)
摘要:我的版本是14.04 1.更新系统 ##如果系统没有换国内下载路径需要换下系统的更新下载路径 http://www.cnblogs.com/seablog/p/7043798.html sudo apt-get update 更新系统 sudo apt-get upgrade 2.安装pip scr 阅读全文
posted @ 2017-06-12 17:17 sea101 阅读(337) 评论(0) 推荐(0)
摘要:在spider中最后一个函数返回item时会scrapy会调用pipeline里面的 阅读全文
posted @ 2017-06-12 17:15 sea101 阅读(492) 评论(0) 推荐(1)
摘要:scrapy stratproject projectname ##创建一个项目 scrapy genspider myspidername fider ##创建一个spider文件 scrapy crawl spidername ## 执行一个spider程序 scrapy shell url # 阅读全文
posted @ 2017-06-12 16:50 sea101 阅读(293) 评论(0) 推荐(1)
摘要:在scrapy项目中建一个与spider同级的python目录并在下面添加一个py文件内容为 阅读全文
posted @ 2017-06-10 17:35 sea101 阅读(2707) 评论(0) 推荐(0)