文章分类 -  spider

摘要:app爬虫之路【课程导学】 一、app爬虫之路 基础篇 app爬虫之路 抓包 app爬虫之路 自动化工具uiautomator2 app爬虫之路 自动化工具appium 二、app爬虫之路 实战篇 app爬虫之路 xx美食 app爬虫之路 x音 阅读全文
posted @ 2020-04-21 18:37 沐风先生 阅读(136) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2020-04-21 15:07 沐风先生 阅读(89) 评论(0) 推荐(0)
摘要:抓包 参数分析 参数的三大方式:生成、加密、返回 dfpToken 返回 设备注册算法 阅读全文
posted @ 2020-04-21 12:42 沐风先生 阅读(938) 评论(0) 推荐(0)
摘要:抓包 JS加密解析 阅读全文
posted @ 2020-03-30 18:14 沐风先生 阅读(72) 评论(0) 推荐(0)
摘要:appium介绍 appnium是一个自动化测试开源工具,支持IOS和Android的原生应用、web应用、混合应用。 appium工作原理 appium安装 下载网页 http://appium.io/ 阅读全文
posted @ 2019-04-16 12:48 沐风先生 阅读(252) 评论(0) 推荐(0)
摘要:更新中... 阅读全文
posted @ 2019-04-15 00:46 沐风先生 阅读(103) 评论(0) 推荐(0)
摘要:单线程爬虫 ''' cost time: 61s ''' # coding=utf-8 import requests from lxml import etree import time class QiuBai: def __init__(self): self.temp_url = "http 阅读全文
posted @ 2019-04-11 22:02 沐风先生 阅读(168) 评论(0) 推荐(0)
摘要:反反爬的主要思路 1.尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。 2.wap 和app的数据反反爬一般不厉害 通过headers字段来反爬 把headers的信息copy到程序的headers:如常见的User-Agent Content-type referer Cookie 等 阅读全文
posted @ 2019-04-10 23:22 沐风先生 阅读(745) 评论(0) 推荐(0)
摘要:数据的分类 我们知道,成功发出请求并获取响应后,这时候就要从数据中提取目标数据了。 lxml 1. 为什么要学习lxml lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息 2.什么是xpath XPath (XML Path 阅读全文
posted @ 2019-04-10 21:44 沐风先生 阅读(518) 评论(0) 推荐(0)
摘要:requests简介 requests模块是python3自带的库,可直接使用,该库主要用来处理http请求 中文文档 : http://docs.python-requests.org/zh_CN/latest/index.html requests模块的简单使用 requests模块发送简单的请 阅读全文
posted @ 2019-04-06 19:51 沐风先生 阅读(923) 评论(0) 推荐(0)
摘要:浏览器发送HTTP请求的过程 调出网页分析工具:鼠标右键 >检测 可以看到,返回了很多资源,但是我们只需要找到url的这个文件即可,学过WEB的可能知道,其实除了文件www.baidu.com之外,其它都是一些前端(css js)和资源(image video)文件 Request URL: htt 阅读全文
posted @ 2019-04-06 18:58 沐风先生 阅读(333) 评论(0) 推荐(0)
摘要:为什么要学习爬虫 既然是模拟认为操作浏览器和APP,那数据所有人都能看到,应该是不值钱的,那为啥还要用爬虫? 众所周知,互联网已经进入了下半场,上半场积累的数据非常多,要从海量的数据中高效提取出目标数据用于数据分析、人工智能、甚至抄袭同类产品(参考今日头条)。 OK,高效提取出目标数据就是爬虫的意义 阅读全文
posted @ 2019-04-06 18:15 沐风先生 阅读(262) 评论(0) 推荐(0)
摘要:setting文件 随机更换user-agent 每次url请求更换一次user-agent settings middlewares ip代理 方案一:免费版 自定义函数获取网上的一些免费代理ip settings middlewares 方案二:收费版 github上scrapy-proxies 阅读全文
posted @ 2017-11-23 01:26 沐风先生 阅读(5463) 评论(0) 推荐(0)
摘要:通过前面的学习,我们已经能够解决90%的爬虫问题了,那么scrapy是为了解决剩下的10%的问题么,不是,scrapy框架能够让我们的爬虫效率更高 官方文档 https://scrapy-chs.readthedocs.io/zh_CN/latest/ why scrapy 爬虫是IO密集型任务,因 阅读全文
posted @ 2017-11-21 03:03 沐风先生 阅读(684) 评论(0) 推荐(0)