爬虫笔记1

最近几天学习总结

===================================================================

python常用标准库:
https://www.cnblogs.com/haochengdu/p/8855028.html

====================================================================

在笔者摸索使用Python处理图片时，发现一个非常好的包：opencv，

====================================================================

python中包含了两个网络模块: urllib 和 urllib2. urllib2是urllib的升级版.
　　urllib: 让我们像读文件一样,读取http和ftp
　　urllib2 在urllib的基础上,提供了更多接口, 如 cookie、代理、认证等更强大的功能

urllib常用函数：urllib。urlopen（）
　　　　　　　　　字符编码辅助函数:
　　　　　　　　　　　　urllib.quote() 对字符串进行编码
urllib2常用参数:
　　　　urllib2.urlopen()
　　　　urllib2.Request(url,data,headers)

====================================================================

python第三方库: requests,BeautifulSoup,Selenium,lxml, Pillow,Scrapy

======================================================================

requests:  基于urllib,完全满足HTTP测试需求, 支持python3,

　　　　　　支持国际化的url和post数据的自动解码

　　　　　　主要功能: 发送请求传递参数,返回resongse对象,上传文件,身份验证, cookie与会话对象

　　　　　　　　　　(使用requests方法(发送请求传递参数)后, 会返回一个response对象,其存储了服务器响应的内容)

BeautifulSoup: 
　　　　是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.
　　　　BeautifulSoup配合Request使用，能大大提高爬虫效率。
　　　  整合了一些常用爬虫需求,但是不能加载jS

 　　　　bs4跟xpath正则一样,都是文本解析器
　　　　 bs4是载入整个文档进行dom解析,运行性能上要比lxml低一些
　　　　　　工具  速度  使用难度
　　　　　　正则  最快  困难
　　　　　　bs4   慢    最简单
　　　　　　lxml  块    简单

　　　Tag对象
　　　遍历文档树
　　　搜索文档树
　　  CSS选择器
　　　解析部分文档　　　

Selenium:

　　　　　　


Selenium:
　　参考: https://blog.csdn.net/qq_29186489/article/details/78661008
　　selenium用于爬虫，主要是用来解决javascript渲染的问题 
　　详细用法:
　　　　1) 声明浏览器对象
　　　　2) 访问页面
　　　　3) 查找单个/多个元素
　　　　4) 元素的交互操作  对获取到的元素调用交互方法
　　　　5) 交互动作: 把动作附加到交互链中
　　　　6) 执行javascript
　　　　7) 获取元素信息: 属性,文本值, ID, 位置,大小,标签名
　　　　8) 等待 time.sleep(1)
　　　　9) 浏览器的前进和后退
　　　　10)cookies的出路
　　　　11) 选项卡处理
　　　　12) 异常处理
　　　　　　　　-l chi-sim






参考来源:https://www.cnblogs.com/mrchige/p/6409444.html

posted @ 2018-10-10 17:10 Newnewww 阅读(142) 评论(0) 收藏举报

刷新页面返回顶部

Newnewww

爬虫笔记1

公告