爬虫
1)request获得网页内容
2)可以通过bs4 find选择器找到标签内容:耗时时间长
3)可以通过lxml etree的xpath找到标签内容:耗时慢,火狐喝谷歌浏览器右键标签可以导出xpath
4)对于js加载的动态标签内容,参考链接https://blog.csdn.net/qq_29027865/article/details/83819049 找到数据真实的请求 再从返回数据中提取出信息。
问:网站需要验证码怎么办?
答:可以使用python PIL图像处理等包
问:动态加载网站如何爬取
答:1)selenium暴力模拟
2)分析网页元素如页数等,找出该数据的原始网页,提交表单,获取不同的数据,用来达到爬取的目的。
                    
                
                
            
        
浙公网安备 33010602011771号