随笔分类 - Python 爬虫

Scrapy的流程

摘要：Scrapy框架的架构如下图具体部分说明： Engine：引擎，处理整个系统的数据流处理，出发事物，是整个框架的核心 Item：项目。定义了爬取结果的数据结构，爬取的数据会被赋值成该Item对象 Scheduler：调度器，接受引擎发过来的请求并将其加入队列中，在引擎再次请求的时候将请求提供给引擎阅读全文

posted @ 2018-08-01 19:27 夜尽天已明阅读(328) 评论(0) 推荐(0)

xPath，beautifulsoup和pyquery

摘要：一、XPath from lxml import etree html = etree.parse('html源代码',etree.HTMLPaser()) 1.节点的获取 a.html.xpath('//*') #匹配HTML中的所有节点 b.html.xapth('//li') #匹配所有的li 阅读全文

posted @ 2018-07-28 15:49 夜尽天已明阅读(951) 评论(0) 推荐(0)

夜尽天已明

随笔分类 - Python 爬虫

公告