python爬虫 - 随笔分类(第3页) - 齐天_大圣

04、URLError与Cookie

摘要：1. Cookie 为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cooki 阅读全文

posted @ 2022-02-26 19:32 齐天_大圣阅读(52) 评论(0) 推荐(0)

05、requests库的用法

摘要：1. 介绍对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法 2. 安装利用 pip 安装 pip install requests 3. 基本请求 req = requ 阅读全文

posted @ 2022-02-26 19:32 齐天_大圣阅读(130) 评论(0) 推荐(0)

03、urllib库的高级用法

摘要：1. 伪装自己有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作 1.1 设置请求头其中User-Agent代表用的哪个请求的浏览器代码如下： from urllib.request import urlopen from urll 阅读全文

posted @ 2022-02-26 19:30 齐天_大圣阅读(50) 评论(0) 推荐(0)

02、爬取数据_urllib库的使用

摘要：1. 小试牛刀怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存阅读全文

posted @ 2022-02-26 19:30 齐天_大圣阅读(106) 评论(0) 推荐(0)

02、工具的使用

摘要：1. 常用的工具 python pycharm 浏览器 chrome 火狐 fiddler 2 fiddler的使用 2.1 操作界面 2.2 界面含义请求 (Request) 部分详解名称含义 Headers 显示客户端发送到服务器的 HTTP 请求的,header 显示为一个分级视图，包含阅读全文

posted @ 2022-02-26 19:28 齐天_大圣阅读(139) 评论(0) 推荐(0)

爬虫介绍

摘要：1. 什么是爬虫？网络爬虫也叫网络蜘蛛，如果把互联网比喻成一个蜘蛛网，那么蜘蛛就是在网上爬来爬去的蜘蛛，爬虫程序通过请求url地址，根据响应的内容进行解析采集数据，比如：如果响应内容是html，分析dom结构，进行dom解析、或者正则匹配，如果响应内容是xml/json数据，就可以转数据对象，然阅读全文

posted @ 2022-02-26 19:27 齐天_大圣阅读(392) 评论(0) 推荐(0)

随笔分类 - python爬虫

公告