Python爬虫简易教程
步骤
1.获取编程软件
- Python3
- Pycharm社区版(可选,更方便代码编辑)
Python软件包
- requests
- selenium
requests和selenium的区别
对于“xxx.html”类型地址的网页,他们的内容是静态的,这种网站一般不会做防护,可以直接用requests爬。
其他类型的内容用selenium更节省时间一点。除此之外,selenium伪装得更像正常用户,更容易骗过某些网站,获取到网页。
2.获取网页
略
3.解析网页结构
基于xpath和css查找某个网页结构
- bs4
- lxml的etree(我一般在requests里面用这个)
- selenium自带的find_element方法
- 其他
4.获取结果
略
5.保存结果
用将爬到的结果临时储存,最后写入文件中。
6.验证结果
听说过有网站会识别爬虫并且一旦识别,就会返回伪装成正常HTML、带有虚假信息的页面(比如价格乱标),所以爬完之后记得人工简单验证一下结果是否准确。

浙公网安备 33010602011771号