摘要:
1. pyquery 1.1 介绍 如果你对CSS选择器与Jquery有有所了解,那么还有个解析库可以适合你--Jquery 官网https://pythonhosted.org/pyquery/ 1.2 安装 pip install pyquery 1.3 使用方式 1.3.1 初始化方式 字符串 阅读全文
posted @ 2022-02-26 19:35
齐天_大圣
阅读(69)
评论(0)
推荐(0)
摘要:
1. Beautiful Soup的简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档 阅读全文
posted @ 2022-02-26 19:34
齐天_大圣
阅读(70)
评论(0)
推荐(0)
摘要:
1. 提取数据 在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字 阅读全文
posted @ 2022-02-26 19:33
齐天_大圣
阅读(162)
评论(0)
推荐(0)
摘要:
1. Cookie 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cooki 阅读全文
posted @ 2022-02-26 19:32
齐天_大圣
阅读(52)
评论(0)
推荐(0)
摘要:
1. 介绍 对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法 2. 安装 利用 pip 安装 pip install requests 3. 基本请求 req = requ 阅读全文
posted @ 2022-02-26 19:32
齐天_大圣
阅读(130)
评论(0)
推荐(0)
摘要:
1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存 阅读全文
posted @ 2022-02-26 19:30
齐天_大圣
阅读(106)
评论(0)
推荐(0)
摘要:
1. 伪装自己 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作 1.1 设置请求头 其中User-Agent代表用的哪个请求的浏览器 代码如下: from urllib.request import urlopen from urll 阅读全文
posted @ 2022-02-26 19:30
齐天_大圣
阅读(50)
评论(0)
推荐(0)
摘要:
1. 常用的工具 python pycharm 浏览器 chrome 火狐 fiddler 2 fiddler的使用 2.1 操作界面 2.2 界面含义 请求 (Request) 部分详解 名称 含义 Headers 显示客户端发送到服务器的 HTTP 请求的,header 显示为一个分级视图,包含 阅读全文
posted @ 2022-02-26 19:28
齐天_大圣
阅读(139)
评论(0)
推荐(0)
摘要:
1. 什么是爬虫? 网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据, 比如:如果响应内容是html,分析dom结构,进行dom解析、或者正则匹配,如果响应内容是xml/json数据,就可以转数据对象,然 阅读全文
posted @ 2022-02-26 19:27
齐天_大圣
阅读(392)
评论(0)
推荐(0)
浙公网安备 33010602011771号