随笔分类 - 爬虫模块
摘要:爬虫常用Xpath和CSS3选择器对比 1. 简介 CSS是来配合HTML工作的,和Xpath对比起来,CSS选择器通常都比较短小,但是功能不够强大。CSS中的空白符' '和Xpath的'//'都表示当前元素的所有后代(子孙)元素。 2. 对比 对于元素(标签)的操作,Xpath和CSS基本上都能通
阅读全文
摘要:BeautifuSoup和Pyquery解析库方法比较 1.对象初始化: BeautifySoup库: 1 from bs4 import BeautifulSoup 2 3 html = 'html string......' 4 soup = BeautifulSoup(html, 'lxml'
阅读全文
摘要:1. urllib.robotparse模块对robot.txt文件的解析,can_fetch()方法和parse()方法。 Page121 2. lxml.etree模块自动补全Html代码,Html()方法和parse()两种方法打开文件。 Page159
阅读全文
摘要:1. 读取selenium模块保存的本地cookie文件来访问知乎 读取http://www.cnblogs.com/strivepy/p/9233389.html保存的本地cookie来访问知乎的用户设置界面,用selenium保存下来的json文件如下格式: 包含很多用不到的信息,比如path、
阅读全文
摘要:pass
阅读全文
摘要:Python3 使用selenium库登陆知乎并保存cookie为本地文件 学习使用selenium库模拟登陆知乎,并将cookie保存为本地文件,然后供以后(requests模块)使用,用selenium模拟登陆时,比较顺利,没有碰到需要验证码的情况,代码放在一个名为cookiesload.py模
阅读全文
摘要:1. Python3 使用urllib库请求网络 1.1 基于urllib库的GET请求 请求百度首页www.baidu.com ,不添加请求头信息: 输出显示百度首页的源码。但是有的网站进行了反爬虫设置,上述代码可能会返回一个40X之类的响应码,因为该网站识别出了是爬虫在访问网站,这时需要伪装一下
阅读全文

浙公网安备 33010602011771号