爬虫 - 文章分类 - 给你加马桶唱疏通

07 js逆向

该文被密码保护。

posted @ 2020-08-16 21:34 给你加马桶唱疏通阅读(2) 评论(0) 推荐(0)

摘要：一. 下载 # 下载: pip3 install PyExecJS # 注意: 使用execjs必须下载node.js程序,它是js代码运行所依赖的环境二. 方法介绍 eval() 输入参数：source(JS语句)、cwd(路径) 返回值：result(语句执行结果) compile() 输入参阅读全文

posted @ 2020-08-16 21:32 给你加马桶唱疏通阅读(718) 评论(0) 推荐(0)

常见爬虫反扒措施

摘要：# 1. header （例子: 全国动产抵押监督管理平台）浏览器的请求头 # 2. User-Agent （例子: 全国动产抵押监督管理平台）用户代理，表明访问源身份的一种方式 # 3. Referer （例子: 中国裁判文书网）访问的目标链接是从哪个链接跳转过来的（做防盗链的话，就可以从它阅读全文

posted @ 2020-08-16 18:02 给你加马桶唱疏通阅读(358) 评论(0) 推荐(0)

06 分布式爬虫

摘要：一. 介绍原来单进程爬取: scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的ur地址) 现在分布式爬取: 所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，然后重写Scrapy的Sche 阅读全文

posted @ 2020-08-16 17:43 给你加马桶唱疏通阅读(105) 评论(0) 推荐(0)

05 Scrapy框架

摘要：一. 介绍 ''' 介绍: 通用的网络爬虫框架, 可以说它是爬界的django 作用: 网络页面抓取起源: 由twisted框架开发而来, 开发的Scrapy是非阻塞图分析: 五大组件 Components 1. spiders /ˈspaɪdə(r)z/ 网页爬虫作用: 开发人员自定义的类, 阅读全文

posted @ 2020-08-16 16:10 给你加马桶唱疏通阅读(126) 评论(0) 推荐(0)

UserAgent使用

摘要：GitHub: https://github.com/hellysmile/fake-useragent 安装: pip3 install fake-useragent 查看useragent: http://fake-useragent.herokuapp.com/browsers/0.1.5 f 阅读全文

posted @ 2020-08-15 20:17 给你加马桶唱疏通阅读(185) 评论(0) 推荐(0)

Faker的基础使用方法与函数速查

摘要：一. 什么是Faker Faker是一个Python包，开源的GITHUB项目，主要用来创建伪数据，使用Faker包，无需再手动生成或者手写随机数来生成数据，只需要调用Faker提供的方法，即可完成数据的生成。项目地址：https://github.com/joke2k/faker 二. 安装Fa 阅读全文

posted @ 2020-08-15 20:11 给你加马桶唱疏通阅读(1716) 评论(0) 推荐(0)

04 爬虫解析库之xpath库

摘要：一. 什么是Xpath? XPath 是 XML 的查询语言，本节介绍该语言的语法。 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。二. 快速使用 1. 前期准备 doc = ''' <html> <head> 阅读全文

posted @ 2020-08-05 17:30 给你加马桶唱疏通阅读(283) 评论(0) 推荐(0)

05 爬虫请求库之selenium库

摘要：一. 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器官网: https:// 阅读全文

posted @ 2020-08-05 17:28 给你加马桶唱疏通阅读(205) 评论(0) 推荐(0)

03 爬虫解析库之bs4库

摘要：一. 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautif 阅读全文

posted @ 2020-08-04 07:40 给你加马桶唱疏通阅读(227) 评论(0) 推荐(0)

django框架应用中实现获取访问者ip地址示例

摘要：通常访问者的IP就在其中，所以我们可以用下列方法获取用户的真实IP： # X-Forwarded-For:简称XFF头，它代表客户端，也就是HTTP的请求端真实的IP，只有在通过了HTTP 代理或者负载均衡服务器时才会添加该项。 def get_ip(request): x_forwarded_fo 阅读全文

posted @ 2020-08-01 20:29 给你加马桶唱疏通阅读(203) 评论(0) 推荐(0)

使用高匿代理IP, 实现妹子图爬取, 并将xinggan妹子图分页爬出到当前目录下

摘要：import requests import re import os headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0 阅读全文

posted @ 2020-08-01 19:24 给你加马桶唱疏通阅读(360) 评论(0) 推荐(0)

模拟登录某网站

摘要：一. 先登录, 再获取登录的cookie, 接着以登录的身份登录网站 import requests data = { 'username': '616564099@qq.com', 'password': 'lqz123', 'captcha': '1234', 'remember': '1', 阅读全文

posted @ 2020-08-01 19:22 给你加马桶唱疏通阅读(514) 评论(0) 推荐(0)

爬取梨视频

摘要：import re import os import requests # 第一步: https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=4&start=0 # 第二步: https://www.pearvideo. 阅读全文

posted @ 2020-08-01 19:21 给你加马桶唱疏通阅读(372) 评论(0) 推荐(0)

02 爬虫请求库之requests库

摘要：一. 介绍 # 介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） # 注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求阅读全文

posted @ 2020-08-01 15:46 给你加马桶唱疏通阅读(258) 评论(0) 推荐(0)

01 爬虫基本原理.md

摘要：一. 爬虫是什么 ![](01 爬虫基本原理.assets/1036857-20171102182154154-1486674926.jpg) # 1、什么是互联网？互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。 # 2、互联网建立的目的？互联网的核阅读全文

posted @ 2020-08-01 12:23 给你加马桶唱疏通阅读(187) 评论(1) 推荐(0)

什么是referer?

摘要：在http请求的Headers部分可见Referer: 判断来源页面: Http协议头中的Referer主要用来让服务器判断来源页面, 即用户是从哪个页面来的,通常被网站用来统计用户来源,是从搜索页面来的,还是从其他网站链接过来,或是从书签等访问,以便网站合理定位. 用作防盗链: Referer有时阅读全文

posted @ 2020-08-01 12:22 给你加马桶唱疏通阅读(1251) 评论(0) 推荐(0)

什么是http代理，什么是socks5代理两者有什么不同？

摘要：一. 代理服务器存在意义: 代理网络用户去取得网络信息代理服务器是介于浏览器和Web服务器之间的一台服务器，有了它之后，浏览器不是直接到Web服务器去取回网页而是向代理服务器发出请求， Request信号会先送到代理服务器，由代理服务器来取回浏览器所需要的信息并传送给你的浏览器二. 代理服务器阅读全文

posted @ 2020-08-01 12:21 给你加马桶唱疏通阅读(1523) 评论(0) 推荐(0)

给你家马桶唱疏通

文章分类 - 爬虫

公告