scrapy - 随笔分类 - kylinlin

Learning Scrapy笔记（三）- Scrapy基础

摘要：摘要：本文介绍了Scrapy的基础爬取流程，也是最重要的部分 Scrapy的爬取流程 Scrapy的爬取流程可以概括为一个方程式：UR2IM，其含义如下图所示 URL：Scrapy的运行就从那个你想要爬取的网站地址开始，当你想要验证用xpath或其他解析器来解析这个网页时，可以使用Scrapy sh 阅读全文

posted @ 2016-04-18 17:32 kylinlin 阅读(5193) 评论(1) 推荐(1)

Learning Scrapy笔记（七）- Scrapy根据Excel文件运行多个爬虫

摘要：摘要：根据Excel文件配置运行多个爬虫很多时候，我们都需要为每一个单独的网站编写一个爬虫，但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同，此时要分别为每一个网站编写一个爬虫就显得徒劳了，其实可以只使用一个spider就爬取这些相似的网站。首先创建一个名为generic的阅读全文

posted @ 2016-04-18 14:40 kylinlin 阅读(3854) 评论(2) 推荐(0)

Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面

摘要：摘要：介绍了使用Scrapy处理JSON API和AJAX页面的方法有时候，你会发现你要爬取的页面并不存在HTML源码，譬如，在浏览器打开http://localhost:9312/static/，然后右击空白处，选择“查看网页源代码”，如下所示：就会发现一片空白留意到红线处指定了一个名为ap 阅读全文

posted @ 2016-04-17 16:37 kylinlin 阅读(23039) 评论(0) 推荐(2)

Scrapy Learning笔记（四）- Scrapy双向爬取

摘要：摘要：介绍了使用Scrapy进行双向爬取（对付分类信息网站）的方法。所谓的双向爬取是指以下这种情况，我要对某个生活分类信息的网站进行数据爬取，譬如要爬取租房信息栏目，我在该栏目的索引页看到如下页面，此时我要爬取该索引页中的每个条目的详细信息（纵向爬取），然后在分页器里跳转到下一页（横向爬取），再爬阅读全文

posted @ 2016-04-15 11:41 kylinlin 阅读(9577) 评论(1) 推荐(2)

Learning Scrapy笔记（五）- Scrapy登录网站

摘要：摘要：介绍了使用Scrapy登录简单网站的流程，不涉及验证码破解简单登录很多时候，你都会发现你需要爬取数据的网站都有一个登录机制，大多数情况下，都要求你输入正确的用户名和密码。现在就模拟这种情况，在浏览器打开网页：http://127.0.0.1:9312/dynamic，首先打开调试器，然后点阅读全文

posted @ 2016-04-15 10:46 kylinlin 阅读(6195) 评论(0) 推荐(1)

Learning Scrapy笔记（零） - 前言

摘要：我已经使用了scrapy有半年之多，但是却一直都感觉没有入门，网上关于scrapy的文章简直少得可怜，而官网上的文档（http://doc.scrapy.org/en/1.0/index.html）对于一个初学者来说实在太不友好了，尤其是像我这种英语水平还未达到炉火纯青地步的程序员来说，读官方文档只阅读全文

posted @ 2016-04-13 21:35 kylinlin 阅读(1801) 评论(1) 推荐(2)

Win10环境下的Scrapy结合Tor进行匿名爬取

摘要：本文内容来源：http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu/ 在使用Scrapy的时候，一旦进行高频率的爬取就容易被封IP，此时可以通过使用TOR来进行匿名爬取，同时要安装Polipo代理服务器注意：要进行下面的操作的前提是，你能FQ 安装TOR 下载地址：https://www.torprojec... 阅读全文

posted @ 2016-03-04 15:30 kylinlin 阅读(8662) 评论(3) 推荐(0)

scrapy-redis使用详解

摘要：安装配置scrapy-redis，从而搭建scrapy的分布式爬虫系统阅读全文

posted @ 2016-02-18 15:01 kylinlin 阅读(52739) 评论(13) 推荐(2)

win10 安装scrapy

摘要：在win10的环境下安装scrapy，并不能直接按照官网的手册（http://doc.scrapy.org/en/1.0/intro/install.html）一次性安装成功，根据我自己的安装过程中遇到的问题，特意整理了一下安装过程 1.下载安装python2.7.11 https://www.python.org/ 2.安装完成之后，把安装路径和脚本路径添加到path中，譬如：C:\... 阅读全文

posted @ 2016-01-31 14:39 kylinlin 阅读(2819) 评论(0) 推荐(1)

杂牌军里的臭皮匠

随笔分类 - scrapy

公告