第一天开始学习写爬虫

首先说明环境、anaconda装的python3.7

pycharm 作为ide、

首先是装环境、就不说了、安装python环境、很简单

pip安装requests 包 pip install requests 即可

第一个问题就是目前好多网站都已经防止被爬、所以需要伪装、

def getHTML(url):
   headers = {'User-Agent': 'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
   return requests.get(url,headers=headers)
为了伪装成Chrome浏览器、可以自己抓自己的浏览器、也可以复制粘贴上面的

def getBadyText():
    url = 'https://job.proginn.com'
    content=getHTML(url).content.decode('UTF-8')
    print(content)
这个是获得网页的text并打印。
现在可以正常访问该网页了、之后开始考虑从这个首页的html中提取URl了、也就是所谓的URL解析器、以及文本解析器、获得URL后放到任务队列里面、以及提取有用信息、
这块会有两种写法、一种是深度优先、另一种是广度优先、另外需注意的是已经遍历过的url就无需再遍历了（也就是去重操作）可以定义两个数据结构、一个是未遍历过的、
一个是已经遍历过得、另外就是考虑一下换别的网站的时候这段代码的克扩展性、

posted @ 2020-10-25 02:26 丑丑程序员阅读(96) 评论(0) 收藏举报

刷新页面返回顶部

丑丑程序员

第一天开始学习写爬虫

公告