随笔分类 - 爬虫
摘要:第1章 基础篇 urllib库 课时0:0.爬虫 urlib库讲解 urlopen()与Request() 课时1:1.爬虫 urlib库讲解 Handler高级用法 课时2:2.爬虫 urlib库讲解 异常处理、URL解析、分析Robots协议 课时3:3.爬虫 urlib库讲解 总结 reque
阅读全文
摘要:requests库的总结: 用ProcessOn根据前面的几节内容做了个思维导图:
阅读全文
摘要:0.文件上传 1.获取cookies 2.会话维持 *可以通过http://httpbin.org/cookies/set/number/123456789对这个网址设置个cookies 输出结果如下: 为空?!因为两次get请求,实际上相当于你用两个浏览器打开了不同的网页。用Session()方法
阅读全文
摘要:requests库相比于urllib库更好用!!! 0.各种请求方式 *http://httpbin.org是一个http请求验证网站! 1.GET请求 带参数的get请求(两种方式是等效的) 输出结果如下: * params=data 对于get请求 添加附加的格外的信息,这个信息一般用字典来存储
阅读全文
摘要:urllib库的总结: 用ProcessOn(安利这个软件,够用了)根据前面的几节内容做了个思维导图。 urllib库一共有四个模块: request:它是最基本的模块,可以用来模拟发送请求 error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其它操作以保证程序不会意外终
阅读全文
摘要:1.异常处理 URLError类来自urllib库的error模块,它继承自OSError类,是error异常模块的基类,由request模块产生的异常都可以通过这个类来处理。 输出结果如下: * 这样来理解:URLError 和 HTTPError ==> URLError其子类是HTTPErro
阅读全文
摘要:在前面我们总结了urllib库的 urlopen()和Request()方法的使用,在这一小节我们要使用相关的Handler来实现代理、cookies等功能。 写在前面: urlopen()方法不支持代理、cookie等其它的HTTP/GTTPS高级功能,所以要支持这些功能: *如果程序里所有的请求
阅读全文
摘要:# 注意一下 是import urllib.request 还是 form urllib import request 0. urlopen() 语法:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=N
阅读全文
摘要:import json import requests from requests.exceptions import RequestException import re import time def get_one_page(url): try: headers = { 'User-Agent': 'Mozilla/5.0 (Macint...
阅读全文
摘要:""" 匹配目标 """ # import re # content = 'Hello 123 4567 World_This is a Regex Demo' # result = re.match("^Hello\s(\d+)\sWorld$", content) # print(result.group(1)) """ 通用匹配 """ # import re # content = 'H...
阅读全文
摘要:""" requests """ # import requests # reponse = requests.get("https://www.baidu.com") # print(type(reponse)) # print(reponse.status_code) # print(type(reponse.text)) # print(reponse.text) # print(repo...
阅读全文
摘要:""" urllib.request.urlopen(url,data,timeout) """ # from urllib.request import urlopen # import urllib.parse # from urllib.error import URLError # import socket # url = "http://httpbin.org/post" # dat...
阅读全文

浙公网安备 33010602011771号