python-爬虫 - 随笔分类 - 不做大哥好多年

05: 常用反扒机制 & 解决方法

摘要：1.1 常用反扒机制参考博客：https://blog.csdn.net/python36/article/details/90174300 1、header 浏览器的请求头 header中添加token等验证信息 2、Referer 防盗链 1. 访问的目标链接是从哪个链接跳转过来的（做防盗链的阅读全文

posted @ 2019-07-16 15:27 不做大哥好多年阅读(539) 评论(0) 推荐(0)

04：爬虫之性能相关

摘要：1.1 实现并发的常见方法 1、简介 1．在编写爬虫时，性能的消耗主要在IO请求中，当单进程单线程模式下请求URL时必然会引起等待，从而使得请求整体变慢。 2．进程：启用进程非常浪费资源 3．线程：线程多，并且在阻塞过程中无法执行其他任务 4．协程：gevent只用起一个线程，当请求发出去后阅读全文

posted @ 2019-05-12 15:14 不做大哥好多年阅读(215) 评论(0) 推荐(0)

03：requests与BeautifulSoup结合爬取网页数据应用

摘要：1.1 爬虫相关模块命令回顾 1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text #获取文本文件 4、 res 阅读全文

posted @ 2018-03-11 11:29 不做大哥好多年阅读(1424) 评论(0) 推荐(0)

02：BeautifulSoup

摘要：1.1 BeautifulSoup介绍 1、BeautifulSoup作用 1、BeautifulSoup是一个模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化 2、之后遍可以使用他提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单 2、安装 pip3 阅读全文

posted @ 2018-03-11 09:10 不做大哥好多年阅读(396) 评论(0) 推荐(0)

01: requests模块

摘要：目录： 1.1 requests模块简介 1.2 使用requests模块发送get请求 1.3 使用requests模块发送post请求 1.4 requests.request()参数介绍 1.1 requests模块简介返回顶部 1. requests模块介绍 1、 Python标准库中提供阅读全文

posted @ 2018-01-18 09:16 不做大哥好多年阅读(415) 评论(0) 推荐(1)

随笔分类 - python-爬虫

公告