爬虫(龙哥纯手撸博客)

---恢复内容开始---

jupyter 环境配置

  jupyter基于浏览器的可视化工具 

  (不会安装就 百度 什么都有)

  官网下载  https://jupyter.org/install

  可以使用 conda 或者 pip

  conda 安装

conda install -c conda-forge jupyterlab

  pip 安装

pip install jupyterlab

  安装成功之后 可以使用 jupyter 安装 notebook 

jupyter notebook

  https://www.anaconda.com/ anaconda 下载地址

  1 右上角 new 创建 python3 后 文件后缀 ipynb

  2 在编辑 菜单中 可以设置 指定的 cell的 模式 可以是 code 和 Markdown 等待 

    1 markdown中 可以使用 html 样式 来 控制 

    2 code 模式中 不分上下之分 下面 定义的变量 上面也可以 获取 (可以写多行) 也叫源文件缓存

  jupyter 快捷键 :

    1 插入 cell : a b (选中cell 后按 a 就可以 向上 插入 b 是 向下插入 ) 提示 : 选中是蓝色的
    2 删除 cell:x 
    3 执行 : shift + enter
    4 tab: 自动补全 
    5 模式的切换 : m -> markdown     y -> code
    6 shift+tab : 打开 帮助文档

 爬虫概念

   什么是爬虫? :爬虫: 通过 编写程序 模拟 浏览器上网 让其去互联网上爬取数据的过程 (浏览器就是 一个 天然的爬虫)

  爬虫的分类: 

    1 .通用爬虫: 全局页面的爬取(增张页面)

    2. 聚焦爬虫 :局部页面的爬取

    3.增量式:只爬取 最新的数据

  反爬机制:某某网站不想让你爬取的机制

  反反爬策略:破解他给你设置的机制呀 爬死他

    

  - robots.txt 协议(第一个反爬机制):  例如 我们 在淘宝网后 输入后缀 robots.txt https://www.taobao.com/robots.txt

    防君子 不 防小人 

  超文本传输协议 : http  和 https 以前的博客有 去找吧!

  User-Agent 和 connection

  以上了解即可 累了吧?  

fiddler抓包工具

   工具下载 https://www.telerik.com/fiddler

  傻瓜式安装 一直点 

  配置

   在 tools 中 options 点击 https  装一个 fiddle证书 全部选√ 重启就可以了

  打开工具 当你 在浏览器发起请求时会自动捕获到数据  选择 右边的 inspector (检查员) 

    inspector 分上下两个 页面 上面是 请求 的 主要就用的到 webfrom 和 raw(请求头)

         下面是 响应 用的到的是 raw 和 json (返回的不是字典的时候是 html)

  

     < > 开头的是 get 请求     绿色箭头 的是 post 请求

requests 模块

  指定 url   指定请求方式 获取响应数据  保存响应数据

四个案例

sogo搜索

 

 

 

 百度翻译

 

 

 

 豆瓣电影

 

 kfc

 

 

 http://125.35.6.84:81/xk/  爬取详细信息

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

---恢复内容结束---

posted @ 2019-10-25 08:55  LD_Dragon  阅读(288)  评论(0)    收藏  举报