爬虫系列 - 随笔分类 - A-handsome-cxy

BeautifulSoup库

摘要：（一）简介 BeautifulSoup是一个灵活方便的网页解析库，处理高效，支持多种解析器，利用它可以不用编写正则表达式即可方便的实现网页信息的提取。这里我们介绍一下一些常用的解析库：（二）用法详解 1.基本使用从输出中可以看到，自动为我们补全了不完整的标签信息。 1 <html> 2 <he 阅读全文

posted @ 2018-10-05 09:52 A-handsome-cxy 阅读(131) 评论(0) 推荐(0)

Requests+正则爬取猫眼电影TOP100

摘要：（一）目标站点的分析首先打开我们的目标网站，发现每一页有十个电影，最下面有分页标志，而分页只改变的是标签后缀，如下：而后可以在网页按f12打开源代码管理，查看网页每处信息对应的源代码形式，如下图：（二）流程框架经过简单分析后，我们可以整理一下总的流程分为四步：（三）实战编码 1.我们首先完阅读全文

posted @ 2018-10-02 12:37 A-handsome-cxy 阅读(273) 评论(0) 推荐(0)

Requests库详解

摘要：（一）简介 requests 是python中比较方便的HTTP库，比urllib方便很多，我们以一个简单的实例来看看：相比urllib是不是简单很多，其各种属性跟urllib也差不多，接下来我们具体看如何发送各种请求。（二）基本GET请求 1.基本写法：如果想带参数直接构造字典并传入到get 阅读全文

posted @ 2018-09-26 17:19 A-handsome-cxy 阅读(516) 评论(0) 推荐(0)

Urllib库详解

摘要：（一）简介 Urllib库是Python内置的HTTP请求库包括四个函数方法 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser　robots.txt解析模块接下里，我们以代码的形式看看如何阅读全文

posted @ 2018-09-23 22:56 A-handsome-cxy 阅读(651) 评论(0) 推荐(0)

爬虫基本原理讲解

摘要：（一）简介今天，我们将对爬虫的基础知识做一个基本的梳理，以便大家掌握爬虫的基本思路，爬虫即为网络资源数据获取，用一句话概括就是：请求网站并提取数据的自动化程序爬虫的基本流程分为四步：在第一二步Request和Response是爬虫的获取阶段比较重要的两个概念，我们来仔细看一下：（二）Req 阅读全文

posted @ 2018-09-23 09:35 A-handsome-cxy 阅读(713) 评论(0) 推荐(0)

正则表达式

摘要：（一）简介：正则表达式，又称为正规表示式，规则表达式等，英文为Regular Expression，在代码中常写为regex。正则表达式使用单个字符串来描述，匹配一系列满足某个句法规则的字符串。（二）Re模块操作： 1.re模块的使用过程： #导入re模块 import re #使用match方阅读全文

posted @ 2018-09-21 21:45 A-handsome-cxy 阅读(294) 评论(0) 推荐(0)

A-handsome-cxy

随笔分类 - 爬虫系列

公告