爬虫 - 随笔分类(第2页) - PythonGirl

Python爬虫 | re正则表达式解析html页面

摘要：正则表达式（Regular Expression）是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"）。正则表达式通常被用来匹配、检索、替换和分割那些符合某个模式(规则)的文本。一、常用正则表达式回顾单字符： . : 除换行以外所有字符 [] ：[aoe] 阅读全文

posted @ 2019-08-23 20:45 PythonGirl 阅读(11691) 评论(0) 推荐(1)

Python爬虫 | lxml解析html页面

摘要：一、简介 1.下载：pip install lxml 推荐使用douban提供的pipy国内镜像服务，如果想手动指定源，可以在pip后面跟-i 来指定源，比如用豆瓣的源来安装web.py框架： pip install web.py -i http://pypi.douban.com/simple - 阅读全文

posted @ 2019-08-23 19:55 PythonGirl 阅读(4702) 评论(0) 推荐(2)

Python爬虫 | Beautifulsoup解析html页面

摘要：引入大多数情况下的需求，我们都会指定去使用聚焦爬虫，也就是爬取页面中指定部分的数据值，而不是整个页面的数据。因此，在聚焦爬虫中使用数据解析。所以，我们的数据爬取的流程为：指定url 基于requests模块发起请求获取响应中的数据数据解析进行持久化存储数据解析： - 被应用在聚焦爬虫。阅读全文

posted @ 2019-08-23 18:53 PythonGirl 阅读(7935) 评论(0) 推荐(0)

Python爬虫 | requests模拟浏览器发送请求

摘要：一、什么是requests 模块 requests模块是python中原生的基于网络请求的模块，功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。requests模块作用：模拟浏览器发请求。二、为什么要使用requests 模块因为在使用urllib模块的时候，会有诸多不便之处，总结如下阅读全文

posted @ 2019-08-22 22:58 PythonGirl 阅读(13464) 评论(0) 推荐(0)

http和https协议

摘要：一、HTTP协议 1.简介 HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写, 是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。 HTTP协议就是服务器（Server）和客户端（Client）之间进行数据交阅读全文

posted @ 2019-08-22 20:06 PythonGirl 阅读(467) 评论(0) 推荐(0)

Python爬虫 | 简介

摘要：什么是爬虫爬虫就是通过编写程序模拟浏览器上网，然后去互联网上爬取/获取数据的过程。爬虫的分类 - 通用爬虫：就是爬取互联网中的一整张页面内容。 - 聚焦爬虫：根据指定的需求爬取页面中指定的局部内容 - 增量式爬虫：用来检测网站数据更新的情况。只会爬取网站中最新更新出来的数据。反爬虫：门户网站通阅读全文

posted @ 2019-08-22 19:08 PythonGirl 阅读(289) 评论(0) 推荐(0)

iPython

博客已迁移至简书：https://www.jianshu.com/u/4ef402efc5e9

随笔分类 - 爬虫

公告