随笔分类 - Python 爬虫
摘要:Scrapy框架的架构如下图 具体部分说明: Engine:引擎,处理整个系统的数据流处理,出发事物,是整个框架的核心 Item:项目。定义了爬取结果的数据结构,爬取的数据会被赋值成该Item对象 Scheduler:调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求的时候将请求提供给引擎
阅读全文
摘要:一、XPath from lxml import etree html = etree.parse('html源代码',etree.HTMLPaser()) 1.节点的获取 a.html.xpath('//*') #匹配HTML中的所有节点 b.html.xapth('//li') #匹配所有的li
阅读全文

浙公网安备 33010602011771号