随笔分类 - 爬虫系列
这是从python中提取出来的一个分支,因此单列了一个文件夹
摘要:(一)简介 BeautifulSoup是一个灵活方便的网页解析库,处理高效,支持多种解析器,利用它可以不用编写正则表达式即可方便的实现网页信息的提取。 这里我们介绍一下一些常用的解析库: (二)用法详解 1.基本使用 从输出中可以看到,自动为我们补全了不完整的标签信息。 1 <html> 2 <he
阅读全文
摘要:(一)目标站点的分析 首先打开我们的目标网站,发现每一页有十个电影,最下面有分页标志,而分页只改变的是标签后缀,如下: 而后可以在网页按f12打开源代码管理,查看网页每处信息对应的源代码形式,如下图: (二)流程框架 经过简单分析后,我们可以整理一下总的流程分为四步: (三)实战编码 1.我们首先完
阅读全文
摘要:(一)简介 requests 是python中比较方便的HTTP库,比urllib方便很多,我们以一个简单的实例来看看: 相比urllib是不是简单很多,其各种属性跟urllib也差不多,接下来我们具体看如何发送各种请求。 (二)基本GET请求 1.基本写法: 如果想带参数直接构造字典并传入到get
阅读全文
摘要:(一)简介 Urllib库是Python内置的HTTP请求库包括四个函数方法 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块 接下里,我们以代码的形式看看如何
阅读全文
摘要:(一)简介 今天,我们将对爬虫的基础知识做一个基本的梳理,以便大家掌握爬虫的基本思路,爬虫即为网络资源数据获取,用一句话概括就是: 请求网站并提取数据的自动化程序 爬虫的基本流程分为四步: 在第一二步Request和Response是爬虫的获取阶段比较重要的两个概念,我们来仔细看一下: (二)Req
阅读全文
摘要:(一)简介: 正则表达式,又称为正规表示式,规则表达式等,英文为Regular Expression,在代码中常写为regex。正则表达式使用单个字符串来描述,匹配一系列满足某个句法规则的字符串。 (二)Re模块操作: 1.re模块的使用过程: #导入re模块 import re #使用match方
阅读全文

浙公网安备 33010602011771号