青魔法-驭虫术（不定时更新）

青魔法Python-驭虫术

本文作者：魏泯

博客源地址：https://www.cnblogs.com/simple/

做有效率的魔法师

*跳转到文章结尾*

概念、工具以及协议

爬虫

爬虫就是模拟浏览器发送网络请求，获取响应，按照规则提取数据的程序。爬虫要的就是保存数据，只抓取不保存毫无用处。

数据流向

呈现出来，用于网页服务，或应用服务
进行保存、数据分析

需要的软件与环境

python环境
Pycharm
chrome浏览器

浏览器的请求

Url：需要进行解码或转码
爬虫和浏览器请求的URL地址有一定差别。Elements与Network中的源码会不一样。

HTTP与HTTPS

Http：超文本传输协议：以明文方式进行传输，效率更高。
Https：Http+SSL（安全套接字层）：传输数据之前，将数据加密，之后解密，效率较低，但是更安全。

这两者都包含请求与响应部分。

请求

Http报文请求由三部分组成：请求行、请求头、请求体

请求头：

Status code：状态码
Conection: keep-alive 支持长连接
Cache-Control:max-age=0 缓存控制为零
User-Agent:浏览器（内核）身份标识
Upgrade-Insecure-Requests:支持将不安全请求转换的功能
Accept:表示我想接收什么数据，q=权重
Cookie：浏览器保存在用户本地的一些信息，包括用户密码，账号信息，网站校验信息（例如csrf跨站保护）。会被携带发送给服务器。Cookie可以被服务器用来判断客户端是否是爬虫。
Query-String-Parameters:请求数据(GET)
From-data:请求数据（POST）
可以在Chorme中模拟多种版本的机器

请求体

GET请求没有请求体，数据放在URL中
POST请求有请求体：携带数据，参数放置于请求体中，常用于登陆注册、传输大文本。

响应

响应头: set-Cookie——服务器给本地设置的cookie信息，服务器通过该字段设置cookie
响应体: URL地址对应的响应
抓包：就是按下F12，在Network中查看浏览器发送了什么请求的信息，这个过程就叫做抓包

*返回目录再看看*

使用requests模块开发爬虫程序

requests的方法

requests模块是一个第三方包：用于模拟http数据请求。
在接下来的内容里我们学习一下它的多种请求。
requests方式比urlib方式简单
50%的动态内容是json格式的数据。

requests模块的请求方法

- requests请求的get请求方式

Http请求的get的请求方式：

使用这种方式得到一个响应对象

url = "http://www.baidu.com/"
response = requests.get(url=url)

Terminal:

<Response [200]>

requests请求的post请求方式

使用这种方式得到一个响应对象

url = "http://www.baidu.com/"
data = {键:"值"}
response = requests.get(url=url,data=data)

Terminal:

<Response [200]>

请求头部信息:

- 伪造/重塑请求头部信息:

headers是一个Hash字典，以键值的方式存放头部信息。
例如：

headers={"键":"值,}
response = requests.get(url=url, headers=headers)

requests的其他参数

除了url和以外还有很多参数，比如timeout、代理IP等等

requests请求的超时参数——timeout

配合异常捕获，在指定时间返回响应

# 在三秒内必须返回响应，否则则会报错
response = requests.get(url=url,headers=headers,timeout=3)

建立代理

建立代理

proxies = [{"http":"113.122.8.45:53128"},{"http":"114.122.8.45:53128"},{"http":"115.122.8.45:53128"}]

导入随机数模块

proxy = random.choice(proxies)

response的方法:

通过response获取页面的响应内容，包括响应头、响应体。

这是我们所使用的公共代码：

import requests
url = 'https://www.cnblogs.com/Asterism-2012/'
response = requests.get(url=url)

获取源代码

response.content
第一种情况，使用content方法获取源代码，但是这种方式是以byte的方式获取源代码，先看一下它是什么，看完这个我们稍后对它解码

print(response.content)

Terminal:

b'\r\n<!DOCTYPE html>\r\n<html lang="zh-cn">\r\n<head>\r\n<meta ......略

response.content.code()

我们发现刚才打印的content内容是byte，为了便于观看，进行解码:
它会将content的内容解码为str类型，也可以自行指定解码类型。

x = response.content.decode()
print(type(x))
print(x)

Terminal:

<class 'str'>
略......<p>by: 魏泯</p><!--PageEndHtml Block End--></body></html>

decode()自行指定content解码类型:

x= response.content.decode('utf-8')
print(type(x))

Terminal:

<class 'str'>

response.text

使用text方法获取到的源代码，是根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码。这种方法简单常用，适用于大部分的网站。当然既然是推测的代码，就也有出现错误的时候，这也没关系，到时候我们可以通过指定编码来解决这个问题。

print(response.text)

Terminal:

略......<p>by: 魏泯</p><!--PageEndHtml Block End--></body></html>

设置服务器的编码为本地的编码

但是有的时候即便进行了解码，也无法正常看到页面源码。造成这样的原因是本地编码与服务器编码不统一，所以我们要对响应回来的内容制定编码。

第一种方式，自动获取：

response.encoding = response.apparent_encoding

第二种方式，手动抓包设置，假设以抓到的是gbk为例:

response.encoding=”gbk”

请求与响应的目标url地址

请求目标站点的Url:

有时候我们需要获取到目标站点的url，用于拼接新的url或者做保存、跳转等工作，所以就用到了response.request.url
这个方法

x = response.request.url

Terminal:

https://www.cnblogs.com/Asterism-2012/

实际发生响应的Url地址:

响应的url地址，有时候会因为跳转而和请求目标地址不一致,使用response.url方法来获取它:

x = response.url
print(x)

Terminal:

https://www.cnblogs.com/Asterism-2012/

请求与响应的头部信息

查看请求头部信息：

有时候我们需要测试自己的代理IP池、Header池信息，就可以通过这个方法来动态获取头部信息进行查看

x = response.request.headers
print(x)

Terminal:

{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

查看响应头部信息:

x = response.headers
print(x)

Terminal:

{'Date': 'Fri, 04 Jan 2019 03:53:18 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Vary': 'Accept-Encoding', 'Cache-Control': 'private, max-age=10', 'Expires': 'Fri, 04 Jan 2019 03:53:28 GMT', 'Last-Modified': 'Fri, 04 Jan 2019 03:53:18 GMT', 'X-UA-Compatible': 'IE=10', 'X-Frame-Options': 'SAMEORIGIN', 'Content-Encoding': 'gzip'}

处理cookie相关的请求

DEMO:人人网

直接携带cookie，然后请求URL

直接放在headers中

headers = {"Referver":"URL","User-Agent":"浏览器信息","Cookie":"..."}

cookie字典传给cookie参数，这个办法非常酷。Cookie参数只接收字典。【传说中的字典推导式】

# Cookie字符串
CookieStr = "anonymid=jm5lz4q0wv29sz; depovince=BJ; _r01_=1; JSESSIONID=abcpoYHrUXJZa6yQOiLxw; ick_login=4c5c0781-d37e-44c5-98a7-8e3fee81d222; ick=e74b83d4-c258-4de9-bd6c-3426f777fadd; XNESSESSIONID=949847ff1bf9; jebe_key=38dc9339-f175-472f-9288-02e4e7e4b59c%7Cd931901a60720bfd1a4f2f38c98639f3%7C1537147847212%7C1%7C1537147849534; wp_fold=0; jebecookies=054ec649-ffed-4989-beda-1be907785a33|||||; _de=BA25AEE63DF6B7A91E89E9A775AD2FBD; p=5929761e2707b622b09b23f92b3c04aa8; first_login_flag=1; ln_uact=15661592012; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; t=aaf1d9103cf916e1d824260c832ceaf38; societyguester=aaf1d9103cf916e1d824260c832ceaf38; id=968054908; xnsid=1acd462c; ver=7.0; loginfrom=null"

# 这是一个字典生成式，生成正式使用的Cookie
Cookie = {i.split("=")[0]:i.split("=")[1] for i in CookieStr.split(";")}
response = requests.get(url=url,headers=headers,cookies=Cookie)

通过session模块获取cookie:（这应是最常用的方法）
1. session = requests.session() 会话保持，实例session
2. session.post(post_url,data,headers) 很多网页的接口可以在表单的action提交地址中看到，但有一些需要抓包才能看到
3. response = session.get(url，headers)
- 使用session不仅可以处理相关登陆，而且可以应对相关反爬措施。
处理登陆相关的验证码可以找：打码兔

*返回目录再看看*

数据提取方法

JSON

数据交换格式，在Python的识别中其实是一个字符串
学习处理和操纵json数据，非常重要
导入标准库模块jsonimport json
json.loads(JSON数据) Json字符串重载为Python可识别的字典(dict)类型
- 将Json字符串转化为Python容器类型(Dic,List)
```
Py_data = json.loads(response.text)`
```
json.dumps(dict) 字典转换成json字符串
- 把Python数据格式转化成字符串
```
Js_data = json.dumps(Py_data)
```
- dumps参数;ensure_ascii=False 取消ASC编码
```
Js_data = json.dumps(Py_data,ensure_ascii=False)
```
- dumps参数;indent=2 以首行缩进两个空格的形式打印或保存，美化效果
```
Js_data = json.dumps(Py_data,indent=2)
```
浏览器的手机模式
抓包：
- 过滤：可以通过过滤URL来大幅提高抓包效率
- Preview:中文不会被编码，会直接正常显示
API的获取注意:动态数据无法正常显示，很可能是Referer导致的

Xpath与lxml

Xpath是一种提取数据的语言

当使用Xpath-helper工具定位到任何一个节点，该节点都会得到一个名为xh-highlight的class属性做标识
XPath-helper插件
解析网页内容：静态内容（源代码中有的）。
ctrl+shift+x 呼出XPath-helper
按住shift移动光标，快速捕获响应的xpath
1.选择节点对象(标签)
- /html/head/meta:能够选中html下的head下的所有的meta标签
2.从任意节点开始选择
- //li:当前页面所有的li标签
- /html/head/link//li:表示meta下的所有li标签
3.定位到具体元素 [@]
- //div[@class="father"]//li: 获取class名为father的div下的所有li标签
- 可以使用单引号
- 在页面中，定位id往往比定位class更合适
4.获取节点内文本 text()
- //a/text():获取a标签中直接裸露的文本内容
- a//text():获取a下的所有文本，包括子节点文本
5.选择节点属性内容
- a/@href:获取a标签中 href属性中的内容

xpath方法

string()函数提取多个子节点中的文本

# 获取词语解释
w_ex = html2.xpath('//*[@id="content"]/div[2]')[0].xpath("string(.)")

lxml模块

第三方模块，解析xml内容
etree.HTML方法，将响应的代码格式化,解析成标准的html格式。
@后面跟属性，如果放在方括号中，代表对所过滤的标签集合进行过滤。如果放在url后，则代表获取该属性的值

etree.HTML(response.text)

相对路径与绝对路径

/是绝对路径，绝对路径的查找难度比较大，比较麻烦
//是相对路径，一般情况下我们都使用相对路径进行查找

mango数据库或文件夹

保存爬取内容
在xpath中的下标切片，不支持负索引，而且是从一开始，而不是从零开始的。
把tbody去掉就好用了

JSON-View插件

更便于查看JSON数据，在原来的基础上，优化了JSON数据的显示格式

response

text方法，响应的源代码，字符串类型；可以提取汉字。
encoding编码

# 将响应信息编码改为网站制定编码
response.encoding = response.apparent_encoding

文件操作

os模块，用于操作系统文件
判断文件夹是否存在

dir = "directory"
if not os.path.exsits(dir):
pass

创建文件夹

dir = "directory"
os.mkdir(dir)

打开文件与文件读写

with("file_name","w+",encoding="utf-8") as f:
    f.write(content)

爬取动态内容与基础反爬

网页是响应式加载，而不是一次性全部自动加载的
Grome浏览器F12：
- Network中可以查看请求信息
- Network-XHR 查看动态请求信息
user-agent/eɪdʒənt/:显示请求浏览器的内核

# 获取返回响应信息头部，这个不是很重要
for v,j in response.headers.items():
    print(v,':',j)
# 获取请求信息头部
for v,j response.request.headers.items():
    print(v,':',j)

伪造请求信息浏览器内核

headers = {
'User-Agent':'伪造的浏览器内核信息'
}
response = requests.get(url=url,headers=headers)

Referer溯源伪造
有些网址的反爬策略是：某些网址的特定网页会识别客户端的refer信息，这些信息包含了客户端的请求记录。它的具体意思是，你必须经由访问了我的主页，跳转到我的子页面，而不是从URL直接过来。你先开我家门，才能到我的卧室，而不是从窗户进来。否则就认为你是不合法的。

headers = {
'Referer':'伪造的 上一级URL'
}
response = requests.get(url=url,headers=headers)

在XHR中可以找到动态数据，以及动态数据的请求接口。
将json数据格式，格式化

py_date = json.loads(response.text())

IP代理 requests.proxies

相关则是随机数模块 random

# 代理IP列表
proxies = [{"http":“133.12.45.12:8564”},{"协议":"IP:端口号"}]
# random随机选择列表中的一个元素生成代理
proxy = random。choice（proxies）
response = requests.get(proxies=proxy)

MongoDB 数据库

基于分布式数据库，非关系性数据库中最接近关系型数据库。
库→集合→文档
服务器端开启服务

mongod.exe --dbpath C:\data\db(路径)
指定服务地址

开启客户端

mongod(在环境变量下)

创建数据库

use DB_NAME

插入数据（创建集合）

db.tb_name.insert({key:value})

查看数据库

show dbs;

删除数据库

db.dropDatabase()

创建集合

db.createCollection("set_name")

查看集合

show collections

删除集合

db.collection.drop()

Scrapy框架

建立爬虫的命令方式

scrapy genspider x www.x.com
这里使用的版本是1.0以上的版本，在填写爬虫域名的时候不需要加引号

运行爬虫
scrapy crawl x
扩展:
- 查看爬虫项目的模式列表
```
>>>scrapy genspider -l 
Available templates:
basic
crawl
csvfeed
xmlfeed
```
- 使用上述模式中的一种，指定它，使用它进行开发（构建）爬虫文件。

spider.py文件:

爬虫文件是整个框架中我们最常编写的，里面包括一些内容需要我们学习。

extract()函数

代替etree将格式化后的源码内容输出

parse()函数

parse() 是spider的一个方法。
被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。
该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

setting.py文件:

这里的配置有很多，但并不是我们所学的全部，譬如分布式设定，是要自己手写进去的

robots.txt的规则遵循设定:这里设置是否遵循robots文件的协定，一般情况下设置成False就行

# Obey robots.txt rules
ROBOTSTXT_OBEY = False      # default:True

设置全局Header头:在settings.py文件中搜索就可以找到,取消注释之后可以将headers头信息加入进去。（在DownloadMiddlewares【下载中间件】中也可以加headers请求头信息，cookie，代理等。）

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

设置爬取间隔:在制定范围内随机的秒数作为爬取间隔，下面这个五表示的是最大爬取间隔时间（框架会从中1~5秒中选取一个时间点），并不是每次爬取都使用这个数字作为间隔秒数。


# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5

开启入库入口文件piplines.py的使用:在setting.py中可以找到这些代码，将它解开，就可以使用。同时还可以在ITEM_PIPELINES字典中设置新的内容（这些内容就是piplines.py中新的类）,并且给它设置不同的优先级。指数越低，优先级越高。

#ITEM_PIPELINES = {
#    'Csdnboke.pipelines.CsdnbokePipeline': 300,
#}

piplines.py文件:

一种去重方法

首先建立一个新的,使用逻辑实现去重，源代码如下：

# 导入模块
from scrapy.exceptions import DropItem
# 建立一个用于去重的类
class Set_it(object):
    # 建立一个构造方法
    def __init__(self):
        self.set0 = set()
    # 建立一个process_item方法，它会自动调用
    def process_item(self, item, spider):
        # 标题
        title = item["title"]
        # 判断标题是否已经存入了set中
        if title in self.set0:
            # 将这条item记录删除，并且输出一条提示信息
            raise DropItem("这一条内容已经存在了，所以我把它删了：%s"%title)
        # 否则将标题存入
        else:
            # 
            self.set0.add(title)
        return item

第三方模块

newspaper（第三方爬虫包）

> newspaper是一个第三方包，用于快速抓取页面信息。它的开发团队来自于美国，现在还仍在维护当中。如果要使用，首先要保证在你的电脑上下载并安装这个包，对此，我们可以使用pip这样的包管理器进行直接下载安装，当然，用conda也可以。

安装newspaper

pip install newspaper3k

在Python爬虫文件中导入它

import newspaper

使用实例化一个newspaper的Article方法,这个方法接收两个参数，第一个参数是Url，第二个参数是区域语言。

# 实例化Article
# demo:
# news = newspaper.Article()
news = newspaper.Article(url=base_url,language='zh')

执行Article的download方法保存源码，然后执行parse方法，这两步是目前必须的

news.download()
news.parse()

获取页面正文

content = news.text

获取页面标题

title = news.title

获取文章内配图

img = news.imges

Retrying 模块

retrying是一个第三方模块，用于重试出现异常的函数。
首先进行安装:

pip install retrying (安装)

代码示例（“出事了算我的，你尽管去做，做错了也不怕，但最多三次”）:

from retrying import retry
# 作为装饰器 装饰函数,报错仍然重复执行，直到三次才算出错
@ retry(stop_max_attempt_number=3)
def fun1():
    print("hello world.")
    time.sleep(1)
    raise ValueError("This is a test error.")

开发一个微型ORM(对象关系映射)脚本【源代码】

#coding=utf-8
'''微型ORM v1.1
@help:
首先要保证你的items中的键值与数据库中的字段吻合，其次要自己建立库和数据表，
传入你的item,并且传入表的名称
@Form: 魏泯
'''

def sql(item,table):
	'''
	item: Your dict.
	table: Your table name.
	'''
	# 生成两个列表推导式
	keylis = [key for key,values in item.items()]
	vlis = [values for key,values in item.items()]
    # 生成sql 语句中所需要的
	str1215 = '"{}"'+',"{}"'*(len(item)-1)
	str1217 = '{}'+',{}'*(len(item)-1)
	str1216 = 'insert into '+table+'('+str1217+')'+' value ('+str1215+')'
	_sql = str1216.format(*keylis,*vlis)
	return _sql      # 返回sql语句

*返回目录再看看*

posted on 2018-12-03 21:40 墨书韶光（魏泯i）阅读(648) 评论(0) 收藏举报

刷新页面返回顶部

青魔法-驭虫术（不定时更新）

青魔法Python-驭虫术

目录

概念、工具 以及 协议

爬虫

数据流向

需要的软件与环境

浏览器的请求

HTTP与HTTPS

请求

响应

使用requests模块开发爬虫程序

requests的方法

requests模块的请求方法

请求头部信息:

requests的其他参数

requests请求的超时参数——timeout

建立代理

response的方法:

获取源代码

设置服务器的编码为本地的编码

请求与响应的目标url地址

请求与响应的头部信息

处理cookie相关的请求

数据提取方法

JSON

Xpath与lxml

Xpath是一种提取数据的语言

xpath方法

lxml模块

相对路径与绝对路径

mango数据库或文件夹

JSON-View插件

response

文件操作

爬取动态内容与基础反爬

IP代理 requests.proxies

MongoDB 数据库

Scrapy框架

spider.py文件:

extract()函数

parse()函数

setting.py文件:

piplines.py文件:

一种去重方法

第三方模块

newspaper（第三方爬虫包）

Retrying 模块

开发一个微型ORM(对象关系映射)脚本【源代码】

导航

公告

概念、工具以及协议