爬虫(龙哥纯手撸博客)

---恢复内容开始---

jupyter 环境配置

　　jupyter基于浏览器的可视化工具

　　(不会安装就百度什么都有)

　　可以使用 conda 或者 pip

　　conda 安装

conda install -c conda-forge jupyterlab

　　pip 安装

pip install jupyterlab

　　安装成功之后可以使用 jupyter 安装 notebook

jupyter notebook

　　https://www.anaconda.com/ anaconda 下载地址

　　1 右上角 new 创建 python3 后文件后缀 ipynb

　　2 在编辑菜单中可以设置指定的 cell的模式可以是 code 和 Markdown 等待

　　　　1 markdown中可以使用 html 样式来控制

　　　　2 code 模式中不分上下之分下面定义的变量上面也可以获取 (可以写多行) 也叫源文件缓存

　　jupyter 快捷键 :

　　　　1 插入 cell : a b (选中cell 后按 a 就可以 向上 插入 b 是 向下插入 ) 提示 : 选中是蓝色的
　　　　2 删除 cell:x 
　　　　3 执行 : shift + enter
　　　　4 tab: 自动补全 
　　　　5 模式的切换 : m -> markdown     y -> code
　　　　6 shift+tab : 打开 帮助文档

爬虫概念

　　什么是爬虫? :爬虫: 通过编写程序模拟浏览器上网让其去互联网上爬取数据的过程 (浏览器就是一个天然的爬虫)

　　爬虫的分类:

　　　　1 .通用爬虫: 全局页面的爬取(增张页面)

　　　　2. 聚焦爬虫 :局部页面的爬取

　　　　3.增量式:只爬取最新的数据

　　反爬机制:某某网站不想让你爬取的机制

　　反反爬策略:破解他给你设置的机制呀爬死他

　　- robots.txt 协议(第一个反爬机制): 例如我们在淘宝网后输入后缀 robots.txt https://www.taobao.com/robots.txt

　　　　防君子不防小人

　　超文本传输协议 : http 和 https 以前的博客有去找吧!

　　User-Agent 和 connection

　　以上了解即可累了吧?

fiddler抓包工具

　　工具下载 https://www.telerik.com/fiddler

　　傻瓜式安装一直点

　　配置

　　　在 tools 中 options 点击 https 装一个 fiddle证书全部选√ 重启就可以了

　　打开工具当你在浏览器发起请求时会自动捕获到数据选择右边的 inspector (检查员)

　　　　inspector 分上下两个页面上面是请求的主要就用的到 webfrom 和 raw(请求头)

　　　　　　　　下面是响应用的到的是 raw 和 json (返回的不是字典的时候是 html)

　　　　< > 开头的是 get 请求绿色箭头的是 post 请求

requests 模块

　　指定 url 指定请求方式获取响应数据保存响应数据

四个案例

sogo搜索

百度翻译

豆瓣电影

kfc

http://125.35.6.84:81/xk/ 爬取详细信息

---恢复内容结束---

posted @ 2019-10-25 08:55 LD_Dragon 阅读(289) 评论(0) 收藏举报

刷新页面返回顶部

LD_Dragon

一曲肝肠断,天涯何处觅知音