随笔分类 -  爬虫基础

摘要:点触验证码识别 爬虫遇到最多的就是验证码,验证码也是当前最为有效的反爬措施,python中机器视觉也有相关的模块解决这种情况 一、概述 1. OCR 光学字符识别(Optical Character Recognition) 2. 原理 通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品 阅读全文
posted @ 2019-09-24 18:49 ChanceySolo 阅读(214) 评论(0) 推荐(0) 编辑
摘要:Fiddler 抓包工具,相同功能的还有Wireshark.....非常之多,还是那句话,工具而已,顺手就行 Fiddler简称FD,可以用来抓包修改包然后发送,之前就有人用其在购物平台截取数据包,将价格修改后发送至服务器,后来以0.01元购买了当下最为火热的iPhone 7 Plus,当然,正在看 阅读全文
posted @ 2019-09-20 20:52 ChanceySolo 阅读(241) 评论(0) 推荐(0) 编辑
摘要:cookie模拟登陆 适用于需要登陆才能访问的页面 一、法一 先成功登陆一次,获取携带登陆信息的cookie F12打开控制台,在页面输入用户名、密码,登录成功,找到/home(一般在抓到地址的上面) 携带着cookie发请求 Cookie Referer(源,代表从哪里转过来的) User Age 阅读全文
posted @ 2019-09-17 09:06 ChanceySolo 阅读(268) 评论(2) 推荐(0) 编辑
摘要:爬虫小案例 一、猫眼电影 需求: 电影名称 主演 上映时间 操作步骤: 查看是否为动态加载 非动态加载 找URL规律 https://maoyan.com/board/4?offset=0第一页 https://maoyan.com/board/4?offset=10第二页 正则表达式 <div c 阅读全文
posted @ 2019-09-17 09:06 ChanceySolo 阅读(290) 评论(0) 推荐(0) 编辑
摘要:JS加密 在诸多的网站中做爬虫,有非常多的源码是经过js加密处理,通用的方法就是分析js的加密过程,然后用python模拟加密,最后得到自己想要的数据。 例如 "案例" 里面的有道翻译 通过抓包分析发现,js加密的sign数据可以使用一下方式生成 pyexecjs库 该库可以运行JavaScript 阅读全文
posted @ 2019-09-17 09:03 ChanceySolo 阅读(204) 评论(0) 推荐(0) 编辑
摘要:反爬策略及反反爬技术 那些阻止爬虫爬取数据的策略称为反爬策略,通常反爬策略都有对应的手段将其破解,称之为反反爬技术。 一、Headers检测 反爬策略: User Agent Cookie Referer 反反爬技术: 将User Agent做成列表或字典,每次请求随机获取一个标识 将User Ag 阅读全文
posted @ 2019-09-17 08:59 ChanceySolo 阅读(2030) 评论(0) 推荐(0) 编辑
摘要:Requests 安装 官方设计原则:让HTTP服务于人类 一、常用方法 汇总: 示例: 保存图片到本地 字符编码也是使用 1. GET 1.1 查询参数 1.1.1 参数类型 字典类型,字典中键值对作为查询参数 无需编码,requests模块会将其封装好请求 1.1.2 使用方法 1.1.3 特点 阅读全文
posted @ 2019-09-12 09:15 ChanceySolo 阅读(398) 评论(2) 推荐(1) 编辑
摘要:一、urllib 1. 访问 参数: url:需要爬取的URL地址 timeout:设置等待时间,指定时间内未得到相应时抛出异常 2.响应方法 3. 包装 3.1 User Agent 作用:创建请求对象(包装请求,重构User Agent,使程序更像正常人类请求) 参数: url:请求的url地址 阅读全文
posted @ 2019-09-09 21:05 ChanceySolo 阅读(153) 评论(0) 推荐(0) 编辑
摘要:Xpath Xpath即为XML路径语言,他是一种用来确定XML文档中某部分位置的语言,同样适用于HTML文档中的检索 匹配语法: 只要涉及条件,加[] 只要获取属性值,加@ 一、选取节点 // : 从所有节点中查找(包括子节点和后代节点) @ : 获取属性值 二、匹配多路径 三、常用函数 匹配属性 阅读全文
posted @ 2019-09-07 09:37 ChanceySolo 阅读(233) 评论(0) 推荐(0) 编辑
摘要:概述 抓取网络资源的机器人 一、概述 1.定义 网络蜘蛛、网络机器人、抓取网络资源的程序 其实就是用python程序模拟人为点击浏览器并访问网站,而且模仿的月逼真越好 2. 目的 获取大量数据,用来做数据分析 公司项目的测试数据,公司业务所需数据 企业获取数据的方式 公司自有数据 第三方品台购买(数 阅读全文
posted @ 2019-09-07 09:36 ChanceySolo 阅读(192) 评论(0) 推荐(0) 编辑