随笔分类 -  爬虫

摘要:正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。 正则表达式通常被用来匹配、检索、替换和分割那些符合某个模式(规则)的文本。 一、常用正则表达式回顾 单字符: . : 除换行以外所有字符 [] :[aoe] 阅读全文
posted @ 2019-08-23 20:45 PythonGirl 阅读(11691) 评论(0) 推荐(1)
摘要:一、简介 1.下载:pip install lxml 推荐使用douban提供的pipy国内镜像服务,如果想手动指定源,可以在pip后面跟-i 来指定源,比如用豆瓣的源来安装web.py框架: pip install web.py -i http://pypi.douban.com/simple - 阅读全文
posted @ 2019-08-23 19:55 PythonGirl 阅读(4702) 评论(0) 推荐(2)
摘要:引入 大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。因此,在聚焦爬虫中使用数据解析。所以,我们的数据爬取的流程为: 指定url 基于requests模块发起请求 获取响应中的数据 数据解析 进行持久化存储 数据解析: - 被应用在聚焦爬虫。 阅读全文
posted @ 2019-08-23 18:53 PythonGirl 阅读(7935) 评论(0) 推荐(0)
摘要:一、什么是requests 模块 requests模块是python中原生的基于网络请求的模块,功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。requests模块作用:模拟浏览器发请求。 二、为什么要使用requests 模块 因为在使用urllib模块的时候,会有诸多不便之处,总结如下 阅读全文
posted @ 2019-08-22 22:58 PythonGirl 阅读(13464) 评论(0) 推荐(0)
摘要:一、HTTP协议 1.简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写, 是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 HTTP协议就是服务器(Server)和客户端(Client)之间进行数据交 阅读全文
posted @ 2019-08-22 20:06 PythonGirl 阅读(467) 评论(0) 推荐(0)
摘要:什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后去互联网上爬取/获取数据的过程。 爬虫的分类 - 通用爬虫:就是爬取互联网中的一整张页面内容。 - 聚焦爬虫:根据指定的需求爬取页面中指定的局部内容 - 增量式爬虫:用来检测网站数据更新的情况。只会爬取网站中最新更新出来的数据。 反爬虫:门户网站通 阅读全文
posted @ 2019-08-22 19:08 PythonGirl 阅读(289) 评论(0) 推荐(0)