python爬虫 - 随笔分类 - sea101

摘要：在爬取数据时有时候有些文件数据需要爬取下载下来使用多线程下载可以让程序跑的更快点。 scrapy中有个扩展可以使用扩展模块来实现下载。在自己的spider中加入 custom_settings 在要下载的时候添加阅读全文

posted @ 2017-07-12 20:58 sea101 阅读(936) 评论(0) 推荐(0)

摘要：selenium是一个web测试应用框架也可以拿来做爬虫。 1.安装selenium模块 pip install -U selenium 2.安装selenium模块后需要有相应的浏览器驱动 A.使用phantomjs phantomjs是无界面的测试浏览器我用的是phantomjs-2.1.0- 阅读全文

posted @ 2017-06-24 18:22 sea101 阅读(281) 评论(0) 推荐(0)

scrapy模拟浏览器爬取验证码页面

摘要：使用selenium模块爬取验证码页面，selenium模块需要另外安装这里不讲环境的配置，我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码如果出现这个HTTP status code is not handled or not allowed 错误说明还有spi 阅读全文

posted @ 2017-06-23 13:12 sea101 阅读(1135) 评论(0) 推荐(0)

scrapy爬取验证码登录网页

摘要：scrapy 验证码登录程序， https://accounts.douban.com/login 豆瓣的登录程序 github完整代码链接地址： https://github.com/sea1234/myyangzhengma 阅读全文

posted @ 2017-06-22 13:16 sea101 阅读(2332) 评论(0) 推荐(0)

scrapy 伪装代理和fake_userAgent的使用

摘要：伪装浏览器代理在爬取网页是有些服务器对请求过滤的不是很高可以不用ip来伪装请求直接将自己的浏览器信息给伪装也是可以的。第一中方法： 1.在setting.py文件中加入以下内容，这是一些浏览器的头信息 1 # encoding: utf-8 2 from scrapy.utils.project 阅读全文

posted @ 2017-06-19 20:55 sea101 阅读(8348) 评论(0) 推荐(2)

ubuntu scrapy 开发环境搭建

摘要：我的版本是14.04 1.更新系统 ##如果系统没有换国内下载路径需要换下系统的更新下载路径　http://www.cnblogs.com/seablog/p/7043798.html sudo apt-get update 更新系统 sudo apt-get upgrade 2.安装pip scr 阅读全文

posted @ 2017-06-12 17:17 sea101 阅读(340) 评论(0) 推荐(0)

pipeline的存储代码

摘要：在spider中最后一个函数返回item时会scrapy会调用pipeline里面的阅读全文

posted @ 2017-06-12 17:15 sea101 阅读(493) 评论(0) 推荐(1)

scrapy 的基本命令

摘要：scrapy stratproject projectname ##创建一个项目 scrapy genspider myspidername fider ##创建一个spider文件 scrapy crawl spidername ## 执行一个spider程序 scrapy shell url # 阅读全文

posted @ 2017-06-12 16:50 sea101 阅读(294) 评论(0) 推荐(1)

python scrapy ip代理的设置

摘要：在scrapy项目中建一个与spider同级的python目录并在下面添加一个py文件内容为阅读全文

posted @ 2017-06-10 17:35 sea101 阅读(2710) 评论(0) 推荐(0)

随笔分类 - python爬虫

公告