摘要: 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。 每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item 阅读全文
posted @ 2017-06-14 20:07 道高一尺 阅读(522) 评论(0) 推荐(0)
摘要: Spiders Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 对spider来说,爬取的循环类似下文: 以初始的URL初 阅读全文
posted @ 2017-06-14 18:29 道高一尺 阅读(2144) 评论(0) 推荐(0)
摘要: # 命令行输入:scrapy shell +链接,会自动请求url,得到的相应默认为response,开启命令行交互模式 scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html In [1]: response#response为默认相应 Out[1]: In [2]: response.tex... 阅读全文
posted @ 2017-06-14 16:29 道高一尺 阅读(1461) 评论(0) 推荐(0)
摘要: 当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的: BeautifulSoup lxml BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” 阅读全文
posted @ 2017-06-14 14:44 道高一尺 阅读(351) 评论(0) 推荐(0)
摘要: 下面列出了可用在 XPath 表达式中的运算符: 如果 price 是 9.80,则返回 true。 如果 price 是 9.90,则返回 false。 如果 price 是 9.90,则返回 true。 如果 price 是 9.80,则返回 false。 如果 price 是 9.00,则返回 阅读全文
posted @ 2017-06-14 12:03 道高一尺 阅读(529) 评论(0) 推荐(0)
摘要: XML 实例文档 我们将在下面的例子中使用此 XML 文档: <?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</pri 阅读全文
posted @ 2017-06-14 12:02 道高一尺 阅读(288) 评论(0) 推荐(0)
摘要: XML 实例文档 我们将在下面的例子中使用这个 XML 文档。 选取节点 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列出了最有用的路径表达式: 表达式描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的 阅读全文
posted @ 2017-06-14 10:27 道高一尺 阅读(317) 评论(0) 推荐(0)