2017 年 11月随笔档案 - Charles.L

python爬虫scrapy之scrapy终端(Scrapy shell)

摘要：Scrapy终端是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的阅读全文

posted @ 2017-11-30 17:46 Charles.L 阅读(10853) 评论(0) 推荐(0)

python爬虫scrapy之登录知乎

摘要：下面我们看看用scrapy模拟登录的基本写法：注意：我们经常调试代码的时候基本都用chrome浏览器，但是我就因为用了谷歌浏览器（它总是登录的时候不提示我用验证码，误导我以为登录时不需要验证码，其实登录时候必须要验证码的），这里你可以多试试几个浏览器，一定要找个提示你输入验证码的浏览器调试。 1、阅读全文

posted @ 2017-11-28 22:39 Charles.L 阅读(4441) 评论(0) 推荐(0)

python爬虫scrapy之downloader_middleware设置proxy代理

摘要：一、背景：小编在爬虫的时候肯定会遇到被封杀的情况，昨天爬了一个网站，刚开始是可以了，在settings的设置DEFAULT_REQUEST_HEADERS伪装自己是chrome浏览器，刚开始是可以的，紧接着就被对方服务器封杀了。代理：代理，代理，一直觉得爬去网页把爬去速度放慢一点就能基本避免被阅读全文

posted @ 2017-11-27 17:01 Charles.L 阅读(20750) 评论(1) 推荐(1)

python爬虫scrapy之如何同时执行多个scrapy爬行任务

摘要：背景：刚开始学习scrapy爬虫框架的时候，就在想如果我在服务器上执行一个爬虫任务的话，还说的过去。但是我不能每个爬虫任务就新建一个项目吧。例如我建立了一个知乎的爬行任务，但是我在这个爬行任务中，写了多个spider，重要的是我想让他们同时运行，怎么办？小白解决办法： 1、在spiders同目录阅读全文

posted @ 2017-11-26 20:42 Charles.L 阅读(10809) 评论(1) 推荐(1)

python爬虫之scrapy的pipeline的使用

摘要：scrapy的pipeline是一个非常重要的模块，主要作用是将return的items写入到数据库、文件等持久化模块，下面我们就简单的了解一下pipelines的用法。案例一： items池 class ZhihuuserItem(scrapy.Item): # define the field 阅读全文

posted @ 2017-11-26 18:05 Charles.L 阅读(7569) 评论(0) 推荐(0)

pycharm远程linux开发和调试代码

摘要：pycharm是一个非常强大的python开发工具，现在很多代码最终在线上跑的环境都是linux，而开发环境可能还是windows下开发，这就需要经常在linux上进行调试，或者在linux对代码进行编写，而pycharm提供了非常便捷的方式。具体实现在windows上远程linux开发和调试的代码阅读全文

posted @ 2017-11-26 09:43 Charles.L 阅读(8138) 评论(0) 推荐(0)

Charles.L

人生苦短

11 2017 档案

公告