爬虫

 

1)request获得网页内容

2)可以通过bs4 find选择器找到标签内容:耗时时间长

3)可以通过lxml etree的xpath找到标签内容:耗时慢,火狐喝谷歌浏览器右键标签可以导出xpath

4)对于js加载的动态标签内容,参考链接https://blog.csdn.net/qq_29027865/article/details/83819049 找到数据真实的请求 再从返回数据中提取出信息。

问:网站需要验证码怎么办?

答:可以使用python PIL图像处理等包

问:动态加载网站如何爬取

答:1)selenium暴力模拟

2)分析网页元素如页数等,找出该数据的原始网页,提交表单,获取不同的数据,用来达到爬取的目的。

 

posted @ 2020-04-13 22:45  facialprogrammer  阅读(119)  评论(0)    收藏  举报