爬虫

1）request获得网页内容

2）可以通过bs4 find选择器找到标签内容：耗时时间长

3）可以通过lxml etree的xpath找到标签内容：耗时慢，火狐喝谷歌浏览器右键标签可以导出xpath

4）对于js加载的动态标签内容，参考链接https://blog.csdn.net/qq_29027865/article/details/83819049 找到数据真实的请求再从返回数据中提取出信息。

问：网站需要验证码怎么办？

答：可以使用python PIL图像处理等包

问：动态加载网站如何爬取

答：1）selenium暴力模拟

2）分析网页元素如页数等，找出该数据的原始网页，提交表单，获取不同的数据，用来达到爬取的目的。

posted @ 2020-04-13 22:45 facialprogrammer 阅读(133) 评论(0) 收藏举报

刷新页面返回顶部