随笔分类 -  python-爬虫

摘要:1.1 常用反扒机制 参考博客:https://blog.csdn.net/python36/article/details/90174300 1、header 浏览器的请求头 header中添加token等验证信息 2、Referer 防盗链 1. 访问的目标链接是从哪个链接跳转过来的(做防盗链的 阅读全文
posted @ 2019-07-16 15:27 不做大哥好多年 阅读(539) 评论(0) 推荐(0)
摘要:1.1 实现并发的常见方法 1、简介 1. 在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢。 2. 进程:启用进程非常浪费资源 3. 线程:线程多,并且在阻塞过程中无法执行其他任务 4. 协程:gevent只用起一个线程,当请求发出去后 阅读全文
posted @ 2019-05-12 15:14 不做大哥好多年 阅读(215) 评论(0) 推荐(0)
摘要:1.1 爬虫相关模块命令回顾 1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text #获取文本文件 4、 res 阅读全文
posted @ 2018-03-11 11:29 不做大哥好多年 阅读(1424) 评论(0) 推荐(0)
摘要:1.1 BeautifulSoup介绍 1、BeautifulSoup作用 1、BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化 2、之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单 2、安装 pip3 阅读全文
posted @ 2018-03-11 09:10 不做大哥好多年 阅读(396) 评论(0) 推荐(0)
摘要:目录: 1.1 requests模块简介 1.2 使用requests模块发送get请求 1.3 使用requests模块发送post请求 1.4 requests.request()参数介绍 1.1 requests模块简介 返回顶部 1. requests模块介绍 1、 Python标准库中提供 阅读全文
posted @ 2018-01-18 09:16 不做大哥好多年 阅读(415) 评论(0) 推荐(1)