爬虫笔记1

最近几天学习总结
===================================================================
python常用标准库:
https://www.cnblogs.com/haochengdu/p/8855028.html
====================================================================

   在笔者摸索使用Python处理图片时,发现一个非常好的包:opencv,

====================================================================
python中包含了两个网络模块: urllib 和 urllib2. urllib2是urllib的升级版.
  urllib: 让我们像读文件一样,读取http和ftp
  urllib2 在urllib的基础上,提供了更多接口, 如 cookie、代理、认证等更强大的功能

urllib常用函数:urllib。urlopen()
         字符编码辅助函数:
            urllib.quote() 对字符串进行编码
urllib2常用参数:
    urllib2.urlopen()
    urllib2.Request(url,data,headers)

====================================================================
python第三方库: requests,BeautifulSoup,Selenium,lxml, Pillow,Scrapy
======================================================================

requests: 基于urllib,完全满足HTTP测试需求, 支持python3,
      支持国际化的url和post数据的自动解码
      主要功能: 发送请求传递参数,返回resongse对象,上传文件,身份验证, cookie与会话对象           
          (使用requests方法(发送请求传递参数)后, 会返回一个response对象,其存储了服务器响应的内容)
BeautifulSoup: 
    是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.
    BeautifulSoup配合Request使用,能大大提高爬虫效率。

    整合了一些常用爬虫需求,但是不能加载jS
     bs4跟xpath正则一样,都是文本解析器
     bs4是载入整个文档进行dom解析,运行性能上要比lxml低一些
      工具 速度 使用难度
      正则 最快 困难
      bs4 慢 最简单
      lxml 块 简单
   Tag对象
   遍历文档树
   搜索文档树
   CSS选择器
   解析部分文档   

Selenium:
      
      


Selenium:
  参考: https://blog.csdn.net/qq_29186489/article/details/78661008
  
selenium用于爬虫,主要是用来解决javascript渲染的问题
  详细用法:
    1) 声明浏览器对象
    2) 访问页面
    3) 查找单个/多个元素
    4) 元素的交互操作 对获取到的元素调用交互方法
    5) 交互动作: 把动作附加到交互链中
    6) 执行javascript
    7) 获取元素信息: 属性,文本值, ID, 位置,大小,标签名
    8) 等待 time.sleep(1)
    9) 浏览器的前进和后退
    10)cookies的出路
    11) 选项卡处理
    12) 异常处理
        -l chi-sim






参考来源:https://www.cnblogs.com/mrchige/p/6409444.html
posted @ 2018-10-10 17:10  Newnewww  阅读(142)  评论(0)    收藏  举报