爬虫 - 随笔分类 - 那是个好男孩

爬虫目录链接

摘要：第1章基础篇 urllib库课时0：0.爬虫 urlib库讲解 urlopen()与Request() 课时1：1.爬虫 urlib库讲解 Handler高级用法课时2：2.爬虫 urlib库讲解异常处理、URL解析、分析Robots协议课时3：3.爬虫 urlib库讲解总结 reque 阅读全文

posted @ 2019-04-10 12:30 那是个好男孩阅读(181) 评论(0) 推荐(0)

6.爬虫 requests库讲解总结

摘要：requests库的总结：用ProcessOn根据前面的几节内容做了个思维导图: 阅读全文

posted @ 2019-04-09 23:24 那是个好男孩阅读(256) 评论(0) 推荐(0)

5.爬虫 requests库讲解高级用法

摘要：0.文件上传 1.获取cookies 2.会话维持 *可以通过http://httpbin.org/cookies/set/number/123456789对这个网址设置个cookies 输出结果如下：为空？！因为两次get请求，实际上相当于你用两个浏览器打开了不同的网页。用Session()方法阅读全文

posted @ 2019-04-09 23:14 那是个好男孩阅读(346) 评论(0) 推荐(0)

4.爬虫 requests库讲解 GET请求 POST请求响应

摘要：requests库相比于urllib库更好用！！！ 0.各种请求方式 *http://httpbin.org是一个http请求验证网站！ 1.GET请求带参数的get请求（两种方式是等效的）输出结果如下： * params=data 对于get请求添加附加的格外的信息，这个信息一般用字典来存储阅读全文

posted @ 2019-04-09 21:30 那是个好男孩阅读(2785) 评论(0) 推荐(1)

3.爬虫 urlib库讲解总结

摘要：urllib库的总结：用ProcessOn(安利这个软件，够用了)根据前面的几节内容做了个思维导图。 urllib库一共有四个模块： request：它是最基本的模块，可以用来模拟发送请求 error：异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其它操作以保证程序不会意外终阅读全文

posted @ 2019-04-09 18:11 那是个好男孩阅读(274) 评论(0) 推荐(0)

2.爬虫 urlib库讲解异常处理、URL解析、分析Robots协议

摘要：1.异常处理 URLError类来自urllib库的error模块，它继承自OSError类，是error异常模块的基类，由request模块产生的异常都可以通过这个类来处理。输出结果如下： * 这样来理解：URLError 和 HTTPError ==> URLError其子类是HTTPErro 阅读全文

posted @ 2019-04-09 16:55 那是个好男孩阅读(554) 评论(0) 推荐(0)

1.爬虫 urlib库讲解 Handler高级用法

摘要：在前面我们总结了urllib库的 urlopen()和Request()方法的使用，在这一小节我们要使用相关的Handler来实现代理、cookies等功能。写在前面： urlopen()方法不支持代理、cookie等其它的HTTP/GTTPS高级功能，所以要支持这些功能： *如果程序里所有的请求阅读全文

posted @ 2019-04-09 14:58 那是个好男孩阅读(456) 评论(0) 推荐(0)

0.爬虫 urlib库讲解 urlopen()与Request()

摘要：# 注意一下是import urllib.request 还是 form urllib import request 0. urlopen() 语法：urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=N 阅读全文

posted @ 2019-04-09 11:29 那是个好男孩阅读(4006) 评论(0) 推荐(2)

2 28TOP100

摘要：import json import requests from requests.exceptions import RequestException import re import time def get_one_page(url): try: headers = { 'User-Agent': 'Mozilla/5.0 (Macint... 阅读全文

posted @ 2019-03-04 16:53 那是个好男孩阅读(119) 评论(0) 推荐(0)

2 27re.py

摘要：""" 匹配目标 """ # import re # content = 'Hello 123 4567 World_This is a Regex Demo' # result = re.match("^Hello\s(\d+)\sWorld$", content) # print(result.group(1)) """ 通用匹配 """ # import re # content = 'H... 阅读全文

posted @ 2019-02-27 21:17 那是个好男孩阅读(143) 评论(0) 推荐(0)

2 26requests.py

摘要：""" requests """ # import requests # reponse = requests.get("https://www.baidu.com") # print(type(reponse)) # print(reponse.status_code) # print(type(reponse.text)) # print(reponse.text) # print(repo... 阅读全文

posted @ 2019-02-26 19:46 那是个好男孩阅读(262) 评论(0) 推荐(0)

2 25urllib.py

摘要：""" urllib.request.urlopen(url,data,timeout) """ # from urllib.request import urlopen # import urllib.parse # from urllib.error import URLError # import socket # url = "http://httpbin.org/post" # dat... 阅读全文

posted @ 2019-02-26 19:45 那是个好男孩阅读(124) 评论(0) 推荐(0)

那是个好男孩

爱笑的男孩运气都不会差

随笔分类 - 爬虫

公告