随笔分类 -  爬虫

python爬虫集合
摘要:bilibili的滑动验证码图片比较好玩,和前一篇不大一样。 采用canvas方法,分析发现只找到一个图片,不过,可以通过设置display截图方式获得2张图(完整图片,带缺口的图片),取得图片后接下来的方式和前一篇一样,偏移位置参数存在差异,需要自行调试。完整代码如下 #!/usr/bin/env 阅读全文
posted @ 2019-09-02 00:35 点点花飞谢 阅读(1226) 评论(0) 推荐(0)
摘要:一、介绍 现在出现了一种通过用户鼠标移动滑块来填补有缺口图片的验证码,我们叫做滑动验证码。它的原理很简单,首先生成一张图片,然后随机挖去一块,在页面展示被挖去部分的图片,再通过js获取用户滑动距离,以及坐标等信息到后台进行校验。只要用户移动的距离符合,以及移动的轨迹行为检测通过即可视为验证通过。 解 阅读全文
posted @ 2019-09-01 19:00 点点花飞谢 阅读(19500) 评论(7) 推荐(4)
摘要:业务需求现学pandas和openpyxl, 1、页面分析 2、定位分析 3、数据读写分析 4、网站容易爬挂,并发调低,user-agent代理可以搞起 import base64 import random from multiprocessing.pool import ThreadPool i 阅读全文
posted @ 2019-07-09 22:40 点点花飞谢 阅读(891) 评论(0) 推荐(0)
摘要:Scrapy-Redis 架构分析 scrapy任务调度是基于文件系统,这样只能在单机执行crawl。 scrapy-redis将待抓取request请求信息和数据items信息的存取放到redis queue里,使多台服务器可以同时执行crawl和items process,大大提升了数据爬取和处 阅读全文
posted @ 2019-05-02 14:27 点点花飞谢 阅读(280) 评论(0) 推荐(0)
摘要:####PC端UA #Opera "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60" "Opera/8.0 (Windows NT 5.1; U; en)" "Mozilla/5.0 (Wind... 阅读全文
posted @ 2019-04-26 19:22 点点花飞谢 阅读(7497) 评论(0) 推荐(0)
摘要:项目地址:https://hr.tencent.com/ 步骤一、分析网站结构和待爬取内容 以下省略一万字 步骤二、上代码(不能略了) 1、配置items.py 2、配置settings.py 配置mongo 切记注册ITEM_PIPELINES ITEM_PIPELINES = { # 'hr_t 阅读全文
posted @ 2019-04-22 15:35 点点花飞谢 阅读(392) 评论(0) 推荐(0)
摘要:安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取 第一部分 项目创建 1、进入到存储项目的文件夹,执行指令 scrapy startproject quotetutorial ,新建一个项目quotetutorial 阅读全文
posted @ 2019-04-21 16:57 点点花飞谢 阅读(326) 评论(0) 推荐(0)
摘要:爬取步骤:# 1、#找到url地址 # url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0" # 2、解析URL,得到网页源码 # 3、从网页源代码里提取数据 # 4、保存数据 # -*- co... 阅读全文
posted @ 2019-04-18 19:09 点点花飞谢 阅读(539) 评论(0) 推荐(0)
摘要:在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目: scrapy startproject ZhipinSpider 在上面命令中,scrapy 是Scrapy 框架提供的命令;startproject 是 scrapy 的子命令,专门用于创建 阅读全文
posted @ 2019-04-17 23:08 点点花飞谢 阅读(5812) 评论(0) 推荐(0)
摘要:除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中。为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 job_inf 数据表: 然后将 Pipeline 文件改为如下形式,即可将爬取到的信息保存到 My 阅读全文
posted @ 2019-04-17 23:05 点点花飞谢 阅读(2990) 评论(1) 推荐(0)
摘要:爬虫的本质就是“抓取”第二方网站中有价值的数据,因此,每个网站都会或多或少地采用一些反爬虫技术来防范爬虫。比如前面介绍的通过 User-Agent 请求头验证是否为浏览器、使用 JavaScript 动态加载资源等,这些都是常规的反爬虫手段。下面针对更强的反爬虫技术提供一些解决方案。 IP 地址验证 阅读全文
posted @ 2019-04-17 23:00 点点花飞谢 阅读(1044) 评论(0) 推荐(0)
摘要:对于 BOSS 直聘这种网站,当程序请求网页后,服务器响应内容包含了整个页面的 HTML 源代码,这样就可以使用爬虫来爬取数据。但有些网站做了一些“反爬虫”处理,其网页内容不是静态的,而是使用 JavaScript 动态加载的,此时的爬虫程序也需要做相应的改进。 使用 shell 调试工具分析目标站 阅读全文
posted @ 2019-04-17 22:35 点点花飞谢 阅读(2923) 评论(0) 推荐(0)
摘要:# -*- coding: utf-8 -*- # @Author : Jackzz import requests,os from pyquery import PyQuery as pq def get_request(url): #构造请求头 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0... 阅读全文
posted @ 2019-04-12 21:23 点点花飞谢 阅读(163) 评论(0) 推荐(0)
摘要:验证码图片下载下来命名为ca.jpg,打开后输入坐标就好了,用空格分开2个输入轴,运行结果如下: 阅读全文
posted @ 2019-04-12 21:17 点点花飞谢 阅读(707) 评论(0) 推荐(0)
摘要:出现这个错误的原因是: 解决办法: 添加两行代码 禁用 urllib3 阅读全文
posted @ 2019-04-10 21:07 点点花飞谢 阅读(1956) 评论(0) 推荐(0)
摘要:取经自思否:https://segmentfault.com/a/1190000015231137 https 的网站 搜索引擎 会优先收录,所以就抽时间记录下配置博客的过程,各种找资料,终于给我找到了一篇好的指引 ACME 使用 LetEncrypt 证书作为博客的 https 实现方式。 acm 阅读全文
posted @ 2018-08-23 23:36 点点花飞谢 阅读(1027) 评论(0) 推荐(0)
摘要:熟悉pyspider的装饰器取经地点:https://segmentfault.com/a/1190000002477863 @config(age=10 * 24 * 60 * 60) 在这表示我们认为 10 天内页面有效,不会再次进行更新抓取 @every 修饰器,@every(minutes= 阅读全文
posted @ 2018-08-23 23:31 点点花飞谢 阅读(248) 评论(0) 推荐(0)
摘要:pyspider安装: pip3 install Pyspider 启动服务操作 1、打开cmd:输入 pyspider --help 回车,可以查看帮助信息,pyspider all 启动command服务 2、启动后看到0.0.0.0.5000 提示就启动好了,打开浏览器127.0.0.1:50 阅读全文
posted @ 2018-08-23 00:08 点点花飞谢 阅读(551) 评论(0) 推荐(0)
摘要:转自:http://www.cnblogs.com/lei0213/ PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG。 phantomjs: 1、无UI界面的网站测试 2、屏幕快照 3、 阅读全文
posted @ 2018-08-20 22:55 点点花飞谢 阅读(476) 评论(0) 推荐(0)
摘要:系统环境:win10 64位系统安装 python基础环境配置不做过多的介绍 window环境安装scrapy需要依赖pywin32,下载对应python版本的exe文件执行安装,下载的pywin32版本不对安装会失败 下载依赖地址:https://sourceforge.net/projects/ 阅读全文
posted @ 2018-07-01 20:52 点点花飞谢 阅读(302) 评论(0) 推荐(0)