文章分类 - 爬虫
摘要:一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu的
阅读全文
摘要:一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu
阅读全文
摘要:第一步:爬虫基本原理 第二步:请求库之requests,selenium 第三步:解析库之re、beautifulsoup、pyquery、lxml 第四步:存储库之mongodb,redis,mysql 第五步:爬虫高性能相关 第六步:Scrapy框架 第七步:分布式爬虫 第八步:爬虫实战
阅读全文
摘要:一 介绍 一些网站会在正常的账号密码认证之外加一些验证码,以此来明确地区分人/机行为,从一定程度上达到反爬的效果,对于简单的校验码Tesserocr就可以搞定,如下 但一些网站加入了滑动验证码,最典型的要属于极验滑动认证了,极验官网:http://www.geetest.com/,下图是极验的登录界
阅读全文
摘要:一 目标站点分析 二 分析验证策略完成登录 import requests,re session = requests.Session() #步骤一、首先登陆login.html,获取cookie r1 = session.get('https://passport.lagou.com/login/
阅读全文
摘要:# requests+Beautifulsoup爬取汽车之家新闻 import requests from bs4 import BeautifulSoup response=requests.get('https://www.autohome.com.cn/news/') response.encoding='gbk' with open('a.html','w',encoding=...
阅读全文
摘要:一 ECharts ECharts是什么?下面是来自官方的介绍: ECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9/10/11,chrome,firefox,S
阅读全文
摘要:一 简介 wxpy基于itchat,使用了 Web 微信的通讯协议,,通过大量接口优化提升了模块的易用性,并进行丰富的功 能扩展。实现了微信登录、收发消息、搜索好友、数据统计等功能。 总而言之,可用来实现各种微信个人号的自动化操作。 安装:wxpy 支持 Python 3.4-3.6,以及 2.7
阅读全文
摘要:案例一 微信聊天机器人 数据可视化之pyecharts 案例二 爬取汽车之家新闻资讯自动登录github 案例三 爬取拉钩,破解登录流程,筛选职位信息并自动投递简历 案例四 爬取京东商品信息,上传到亚马逊平台自营网店,完成亚马逊平台提交的订单自动完成京东平台的下单操作,赚取中间差价,数据可视化 案例
阅读全文
摘要:一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Scheduler,让新的Schedul
阅读全文
摘要:一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As
阅读全文
摘要:一 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium
阅读全文
摘要:第一篇:爬虫基本原理 第二篇:请求库之 requests, selenium 第三篇:解析库之 re、beautifulsoup、 pyquery 第四篇:存储库之 mongodb,redis,mysql 第五篇:爬虫高性能相关 第六篇: Scrapy框架 第七篇:分布式爬虫 第八篇:爬虫实战
阅读全文
摘要:一 介绍 官网链接:http://docs.python-requests.org/en/master/ 二 基于GET请求 1、基本请求 2、带参数的GET请求->params #在请求头内将自己伪装成浏览器,否则百度不会正常返回页面内容 import requests response=requ
阅读全文
摘要:一 爬虫是什么? 二 爬虫的基本流程 三 请求与响应 四 Request from urllib.parse import urlencode import requests headers={ 'Accept':'text/html,application/xhtml+xml,applicatio
阅读全文

浙公网安备 33010602011771号