摘要:
urllib是python的基本库之一,内置四大模块,即request,error,parse,robotparser,常用的request,error,一个用于发送HTTP请求,一个用于处理请求的错误。parse用于对URL的处理,拆分,合并等 1、urllib库之urlopen函数 1 """u 阅读全文
posted @ 2020-06-07 23:08
udbful
阅读(210)
评论(0)
推荐(0)
摘要:
一、安装virtualenv 1、安装命令 pip install virtualenv 2、查看python解释器路径 where python 二、创建虚拟环境 1、在控制台中,使用cd目录,切换到需要创建虚拟环境的目录 C:\Users\udbfu>d: D:\>cd Virtualenv 2 阅读全文
posted @ 2020-06-07 21:35
udbful
阅读(207)
评论(0)
推荐(0)
摘要:
主要有Request类、 Response类和Item类以及Scrapy爬虫支持的信息提取方法,有: Beautiful Soup lxml re XPath Selector CSS Selector等 阅读全文
posted @ 2020-06-07 15:53
udbful
阅读(117)
评论(0)
推荐(0)
摘要:
一、Scrapy爬虫的常用命令 二、建立第一个项目 https://docs.scrapy.org/en/latest/intro/tutorial.html 1、创建一个Scrapy爬虫工程 scrapy startproject python123demo 命令创建了一个python123dem 阅读全文
posted @ 2020-06-07 15:28
udbful
阅读(231)
评论(0)
推荐(0)
摘要:
一、5+2结构: Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等 Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入S 阅读全文
posted @ 2020-06-07 12:30
udbful
阅读(149)
评论(0)
推荐(0)
摘要:
pip install scrapy (anaconda第三方库中并没有安装Scrapy需要自已安装) 测试:scrapy -h 以下表示测试安装成功 阅读全文
posted @ 2020-06-07 11:36
udbful
阅读(158)
评论(0)
推荐(0)
浙公网安备 33010602011771号