随笔分类 -  python爬虫

摘要:Fiddler抓包工具 一.Fiddler的作用 1.能够监听http/https的流量,可以截获从浏览器或者客户端软件向服务器发送的http/https请求; 2.对已截获之后的请求,还能够查看请求中的内容; 3.能够方便进行前后端的调试,既能够伪造客户端的请求,还能够与伪造服务器的响应 4.能够 阅读全文
posted @ 2020-08-13 11:50 godlover 阅读(844) 评论(0) 推荐(0)
摘要:简单爬取汽车之家新闻(requests模块+bs4) import requests ret = requests.get('https://www.autohome.com.cn/all/#pvareaid=3311230') ret.encoding = 'gb2312' # print(ret 阅读全文
posted @ 2020-04-12 10:45 godlover 阅读(205) 评论(0) 推荐(0)
摘要:http协议0.9,1.0,1.1和2.0版本的区别之处? 0.9是第一个版本,只允许客户端发送get请求,且不支持请求头,所以只支持纯文本,无法插入图片,具有典型的无状态性,每个事务独立进行处理,事务结束时就会释放这个连接,如果请求的页面不存在,也不会返回任何错误码 1.0支持get,post,h 阅读全文
posted @ 2020-04-10 11:46 godlover 阅读(345) 评论(0) 推荐(0)
摘要:自动登录网站 # 模拟登录网站 import requests ret = requests.post('http://www.aa7a.cn/user.php', data={ 'username': '18055525400@163.com', 'password': 'yaodas282507 阅读全文
posted @ 2020-04-10 10:39 godlover 阅读(906) 评论(0) 推荐(0)
摘要:爬取梨视频 #categoryId=9 分类id #start=0 从哪个位置开始,每次加载12个 # https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=9&start=0 import requests impo 阅读全文
posted @ 2020-04-10 09:18 godlover 阅读(486) 评论(0) 推荐(0)
摘要:爬虫简介: 1.本质是:模拟发送http请求(request)--》解析返回数据(re,bs4, lxml,json)--》入库(redis, mysql,mongodb) 2.用app爬虫:本质一模一样 3.python做爬虫的优势:包多,有很多爬虫框架:scrapy:性能很高的爬虫框架,爬虫届的 阅读全文
posted @ 2020-04-10 09:13 godlover 阅读(492) 评论(0) 推荐(0)