文章分类 - 爬虫
摘要:一. 下载 # 下载: pip3 install PyExecJS # 注意: 使用execjs必须下载node.js程序,它是js代码运行所依赖的环境 二. 方法介绍 eval() 输入参数:source(JS语句)、cwd(路径) 返回值:result(语句执行结果) compile() 输入参
阅读全文
摘要:# 1. header (例子: 全国动产抵押监督管理平台) 浏览器的请求头 # 2. User-Agent (例子: 全国动产抵押监督管理平台) 用户代理,表明访问源身份的一种方式 # 3. Referer (例子: 中国裁判文书网) 访问的目标链接是从哪个链接跳转过来的(做防盗链的话,就可以从它
阅读全文
摘要:一. 介绍 原来单进程爬取: scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的ur地址) 现在分布式爬取: 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Sche
阅读全文
摘要:一. 介绍 ''' 介绍: 通用的网络爬虫框架, 可以说它是爬界的django 作用: 网络页面抓取 起源: 由twisted框架开发而来, 开发的Scrapy是非阻塞 图分析: 五大组件 Components 1. spiders /ˈspaɪdə(r)z/ 网页爬虫 作用: 开发人员自定义的类,
阅读全文
摘要:GitHub: https://github.com/hellysmile/fake-useragent 安装: pip3 install fake-useragent 查看useragent: http://fake-useragent.herokuapp.com/browsers/0.1.5 f
阅读全文
摘要:一. 什么是Faker Faker是一个Python包,开源的GITHUB项目,主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的生成。 项目地址:https://github.com/joke2k/faker 二. 安装Fa
阅读全文
摘要:一. 什么是Xpath? XPath 是 XML 的查询语言,本节介绍该语言的语法。 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 二. 快速使用 1. 前期准备 doc = ''' <html> <head>
阅读全文
摘要:一. 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 官网: https://
阅读全文
摘要:一. 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautif
阅读全文
摘要:通常访问者的IP就在其中,所以我们可以用下列方法获取用户的真实IP: # X-Forwarded-For:简称XFF头,它代表客户端,也就是HTTP的请求端真实的IP,只有在通过了HTTP 代理或者负载均衡服务器时才会添加该项。 def get_ip(request): x_forwarded_fo
阅读全文
摘要:import requests import re import os headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0
阅读全文
摘要:一. 先登录, 再获取登录的cookie, 接着以登录的身份登录网站 import requests data = { 'username': '616564099@qq.com', 'password': 'lqz123', 'captcha': '1234', 'remember': '1',
阅读全文
摘要:import re import os import requests # 第一步: https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=4&start=0 # 第二步: https://www.pearvideo.
阅读全文
摘要:一. 介绍 # 介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) # 注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求
阅读全文
摘要:一. 爬虫是什么  # 1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 # 2、互联网建立的目的? 互联网的核
阅读全文
摘要:在http请求的Headers部分可见Referer: 判断来源页面: Http协议头中的Referer主要用来让服务器判断来源页面, 即用户是从哪个页面来的,通常被网站用来统计用户来源,是从搜索页面来的,还是从其他网站链接过来,或是从书签等访问,以便网站合理定位. 用作防盗链: Referer有时
阅读全文
摘要:一. 代理服务器存在意义: 代理网络用户去取得网络信息 代理服务器是介于浏览器和Web服务器之间的一台服务器,有了它之后, 浏览器不是直接到Web服务器去取回网页而是向代理服务器发出请求, Request信号会先送到代理服务器,由代理服务器来取回浏览器所需要的信息并传送给你的浏览器 二. 代理服务器
阅读全文

浙公网安备 33010602011771号