第一天开始学习写爬虫
首先说明环境、anaconda装的python3.7
pycharm 作为ide、
首先是装环境、就不说了、安装python环境、很简单
pip安装requests 包 pip install requests 即可
第一个问题就是目前好多网站都已经防止被爬、所以需要伪装、
def getHTML(url):
headers = {'User-Agent': 'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
return requests.get(url,headers=headers)
为了伪装成Chrome浏览器、可以自己抓自己的浏览器、也可以复制粘贴上面的
def getBadyText():
url = 'https://job.proginn.com'
content=getHTML(url).content.decode('UTF-8')
print(content)
这个是获得网页的text并打印。
现在可以正常访问该网页了、之后开始考虑从这个首页的html中提取URl了、也就是所谓的URL解析器、以及文本解析器、获得URL后放到任务队列里面、以及提取有用信息、
这块会有两种写法、一种是深度优先、另一种是广度优先、另外需注意的是已经遍历过的url就无需再遍历了(也就是去重操作)可以定义两个数据结构、一个是未遍历过的、
一个是已经遍历过得、另外就是考虑一下换别的网站的时候这段代码的克扩展性、

浙公网安备 33010602011771号