scrapy框架的基本调用方式
scrapy框架的基本调用方式
命令行创建爬虫:scrapy startproject youyuan
命令行创建爬虫:scrapy genspider -t crawl yy 'youyuan.com'
爬虫名不能跟项目名相同
运行爬虫:scrapy crawl yy(爬虫名)
分布式爬虫运行:scrapy runspider yy.py(爬虫文件名)
分布式发送指令 lpush yyspider:start_urls + 起始网址
with一个对象执行该对象的__enter__方法然后执行__exit__方法,这两个方法需要配合使用。
python的默认解析式html.parser
成员修饰符
私有属性只能在自己内部直接调用,如果要在外部或者子类中调用方式为_Foo__age_