爬虫模块 - 随笔分类 - StrivePy

爬虫常用Xpath和CSS3选择器对比

摘要：爬虫常用Xpath和CSS3选择器对比 1. 简介 CSS是来配合HTML工作的，和Xpath对比起来，CSS选择器通常都比较短小，但是功能不够强大。CSS中的空白符' '和Xpath的'//'都表示当前元素的所有后代（子孙）元素。 2. 对比对于元素（标签）的操作，Xpath和CSS基本上都能通阅读全文

posted @ 2019-02-25 18:43 StrivePy 阅读(1330) 评论(0) 推荐(0)

Python3 BeautifulSoup和Pyquery解析库随笔

摘要：BeautifuSoup和Pyquery解析库方法比较 1.对象初始化： BeautifySoup库： 1 from bs4 import BeautifulSoup 2 3 html = 'html string......' 4 soup = BeautifulSoup(html, 'lxml' 阅读全文

posted @ 2018-07-02 12:44 StrivePy 阅读(1447) 评论(0) 推荐(0)

Python3 网络爬虫开发实战学习弱点书签

摘要：1. urllib.robotparse模块对robot.txt文件的解析，can_fetch()方法和parse()方法。 Page121 2. lxml.etree模块自动补全Html代码，Html()方法和parse()两种方法打开文件。 Page159 阅读全文

posted @ 2018-06-28 12:43 StrivePy 阅读(152) 评论(0) 推荐(0)

Python3 使用requests库读取本地保存的cookie文件实现免登录访问

摘要：1. 读取selenium模块保存的本地cookie文件来访问知乎读取http://www.cnblogs.com/strivepy/p/9233389.html保存的本地cookie来访问知乎的用户设置界面，用selenium保存下来的json文件如下格式：包含很多用不到的信息，比如path、阅读全文

posted @ 2018-06-27 13:19 StrivePy 阅读(2997) 评论(0) 推荐(0)

Python3 使用requests库登陆知乎并保存cookie为本地文件

摘要：pass 阅读全文

posted @ 2018-06-27 13:18 StrivePy 阅读(2036) 评论(1) 推荐(0)

Python3 使用selenium库登陆知乎并保存cookie为本地文件

摘要：Python3 使用selenium库登陆知乎并保存cookie为本地文件学习使用selenium库模拟登陆知乎，并将cookie保存为本地文件，然后供以后（requests模块）使用，用selenium模拟登陆时，比较顺利，没有碰到需要验证码的情况，代码放在一个名为cookiesload.py模阅读全文

posted @ 2018-06-27 12:52 StrivePy 阅读(1992) 评论(0) 推荐(0)

Python3 urllib库和requests库

摘要：1. Python3 使用urllib库请求网络 1.1 基于urllib库的GET请求请求百度首页www.baidu.com ，不添加请求头信息：输出显示百度首页的源码。但是有的网站进行了反爬虫设置，上述代码可能会返回一个40X之类的响应码，因为该网站识别出了是爬虫在访问网站，这时需要伪装一下阅读全文

posted @ 2018-06-26 21:46 StrivePy 阅读(14759) 评论(0) 推荐(0)

StrivePy

随笔分类 - 爬虫模块

公告