爬虫 - 文章分类 - 萤huo虫

爬虫高性能架构

摘要：一背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程对cpu的阅读全文

posted @ 2019-06-24 14:10 萤huo虫阅读(136) 评论(0) 推荐(0)

Beautiful Soup

摘要：一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文

posted @ 2019-03-13 17:35 萤huo虫阅读(116) 评论(0) 推荐(0)

爬虫

摘要：第一步：爬虫基本原理第二步：请求库之requests，selenium 第三步：解析库之re、beautifulsoup、pyquery、lxml 第四步：存储库之mongodb，redis，mysql 第五步：爬虫高性能相关第六步：Scrapy框架第七步：分布式爬虫第八步：爬虫实战阅读全文

posted @ 2019-03-13 17:31 萤huo虫阅读(140) 评论(0) 推荐(0)

破解极验滑动验证码

摘要：一介绍一些网站会在正常的账号密码认证之外加一些验证码，以此来明确地区分人/机行为，从一定程度上达到反爬的效果，对于简单的校验码Tesserocr就可以搞定，如下但一些网站加入了滑动验证码，最典型的要属于极验滑动认证了，极验官网：http://www.geetest.com/，下图是极验的登录界阅读全文

posted @ 2019-03-13 17:20 萤huo虫阅读(286) 评论(0) 推荐(0)

爬取并筛选拉钩网职位信息自动提交简历

摘要：一目标站点分析二分析验证策略完成登录 import requests,re session = requests.Session() #步骤一、首先登陆login.html，获取cookie r1 = session.get('https://passport.lagou.com/login/ 阅读全文

posted @ 2019-03-13 11:52 萤huo虫阅读(220) 评论(0) 推荐(0)

爬取汽车之家新闻

摘要：# requests+Beautifulsoup爬取汽车之家新闻 import requests from bs4 import BeautifulSoup response=requests.get('https://www.autohome.com.cn/news/') response.encoding='gbk' with open('a.html','w',encoding=... 阅读全文

posted @ 2019-03-13 11:47 萤huo虫阅读(87) 评论(0) 推荐(0)

数据可视化pyecharts

摘要：一 ECharts ECharts是什么？下面是来自官方的介绍： ECharts，缩写来自Enterprise Charts，商业级数据图表，一个纯Javascript的图表库，可以流畅的运行在PC和移动设备上，兼容当前绝大部分浏览器（IE6/7/8/9/10/11，chrome，firefox，S 阅读全文

posted @ 2019-03-13 11:46 萤huo虫阅读(316) 评论(0) 推荐(0)

python 微信机器人

摘要：一简介 wxpy基于itchat，使用了 Web 微信的通讯协议，，通过大量接口优化提升了模块的易用性，并进行丰富的功能扩展。实现了微信登录、收发消息、搜索好友、数据统计等功能。总而言之，可用来实现各种微信个人号的自动化操作。安装：wxpy 支持 Python 3.4-3.6，以及 2.7 阅读全文

posted @ 2019-03-13 11:43 萤huo虫阅读(416) 评论(0) 推荐(0)

爬虫实战

摘要：案例一微信聊天机器人数据可视化之pyecharts 案例二爬取汽车之家新闻资讯自动登录github 案例三爬取拉钩，破解登录流程，筛选职位信息并自动投递简历案例四爬取京东商品信息，上传到亚马逊平台自营网店，完成亚马逊平台提交的订单自动完成京东平台的下单操作，赚取中间差价，数据可视化案例阅读全文

posted @ 2019-03-13 11:30 萤huo虫阅读(128) 评论(0) 推荐(0)

分布式爬虫

摘要：一介绍原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，然后重写Scrapy的Scheduler，让新的Schedul 阅读全文

posted @ 2019-03-13 11:28 萤huo虫阅读(122) 评论(0) 推荐(0)

爬虫：Scrapy

摘要：一介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2019-03-13 11:07 萤huo虫阅读(197) 评论(0) 推荐(0)

selenium模块

摘要：一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium 阅读全文

posted @ 2019-03-07 19:58 萤huo虫阅读(108) 评论(0) 推荐(0)

爬虫入门

摘要：第一篇：爬虫基本原理第二篇：请求库之 requests， selenium 第三篇：解析库之 re、beautifulsoup、 pyquery 第四篇：存储库之 mongodb，redis，mysql 第五篇：爬虫高性能相关第六篇： Scrapy框架第七篇：分布式爬虫第八篇：爬虫实战阅读全文

posted @ 2019-03-07 19:44 萤huo虫阅读(124) 评论(0) 推荐(0)

requests模块

摘要：一介绍官网链接：http://docs.python-requests.org/en/master/ 二基于GET请求 1、基本请求 2、带参数的GET请求->params #在请求头内将自己伪装成浏览器，否则百度不会正常返回页面内容 import requests response=requ 阅读全文

posted @ 2019-03-07 19:43 萤huo虫阅读(101) 评论(0) 推荐(0)

爬虫基本原理

摘要：一爬虫是什么？二爬虫的基本流程三请求与响应四 Request from urllib.parse import urlencode import requests headers={ 'Accept':'text/html,application/xhtml+xml,applicatio 阅读全文

posted @ 2019-03-07 19:19 萤huo虫阅读(245) 评论(0) 推荐(0)

言念君子，温润如玉

文章分类 - 爬虫

公告