摘要: - re.I # 忽略大小写- re.M # 多行匹配,将正则作用到源数据的每一行- re.S # 单行匹配,将正则作用到整个源数据,输出一个整体字符串(包括换行符也打印) 阅读全文
posted @ 2019-09-18 22:19 陪伴is最长情的告白 阅读(287) 评论(0) 推荐(0)
摘要: 使用流程: -导包:from bs4 import BeautifulSoup - 使用方式:可以将一个html文档,转化为BeautifulSoup对象,然后通过对象的方法或属性去查找指定的节点内容。 (1)转化本地文件: - soup = BeautifulSoup(open(‘本地文件’),‘ 阅读全文
posted @ 2019-09-18 15:03 陪伴is最长情的告白 阅读(1686) 评论(0) 推荐(0)
摘要: - 基于如下5点展开requests模块的学习 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候 阅读全文
posted @ 2019-09-18 14:20 陪伴is最长情的告白 阅读(307) 评论(0) 推荐(0)
摘要: 一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2019-09-18 14:15 陪伴is最长情的告白 阅读(424) 评论(0) 推荐(0)
摘要: 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 简单来讲就是尽可能的;把互联网上 阅读全文
posted @ 2019-09-18 14:14 陪伴is最长情的告白 阅读(276) 评论(0) 推荐(0)