python爬虫 - 随笔分类 - 布吉岛丶

分布式爬虫

摘要：本篇导航：介绍 scrapy-redis组件一、介绍原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，然后重写Scr 阅读全文

posted @ 2018-02-05 16:29 布吉岛丶阅读(305) 评论(0) 推荐(0)

爬虫框架scrapy

摘要：本篇导航：介绍与安装命令行工具项目结构以及爬虫应用简介 Spiders 其它介绍爬取亚马逊商品信息一、介绍与安装 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用阅读全文

posted @ 2018-01-24 18:39 布吉岛丶阅读(689) 评论(0) 推荐(3)

python version 3.6 required,which was not fount in the registry（python3.6安装scrapy）

摘要：安装pywin32报错：python version 3.6 required,which was not fount in the registry（python3.6安装scrapy）阅读全文

posted @ 2018-01-23 22:37 布吉岛丶阅读(4559) 评论(0) 推荐(1)

爬虫高性能相关

摘要：本篇导航：背景知识同步、异步、回调机制高性能一、背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，阅读全文

posted @ 2018-01-23 16:24 布吉岛丶阅读(281) 评论(0) 推荐(0)

存储库之MongoDB、mysql

摘要：本篇导航：简介 MongoDB基础知识安装基本数据类型 CRUD操作其它存储库之mysql 一、简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库1、易用性 MongoDB是一个面向文档（document-oriented）的数据库，而不是关系型数据库。不采用关系型主要是为了阅读全文

posted @ 2018-01-22 17:28 布吉岛丶阅读(670) 评论(0) 推荐(0)

解析库之re，Beautifulsoup

摘要：本篇导航：介绍基本使用遍历文档树搜索文档树总结 re模块在之前的python进阶中有讲过不再做过多的阐述，本篇为BeautifulSoup库的分析 20、collections模块和re模块（正则表达式详解）一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数阅读全文

posted @ 2018-01-19 15:59 布吉岛丶阅读(466) 评论(0) 推荐(0)

破解极验滑动验证码

摘要：本篇导航：介绍实现说明一、介绍一些网站会在正常的账号密码认证之外加一些验证码，以此来明确地区分人/机行为，从一定程度上达到反爬的效果，对于简单的校验码Tesserocr就可以搞定，如下但一些网站加入了滑动验证码，最典型的要属于极验滑动认证了，极验官网：http://www.geetest 阅读全文

posted @ 2018-01-18 20:57 布吉岛丶阅读(868) 评论(3) 推荐(3)

请求库之selenium模块

摘要：本片导航：介绍及安装基本使用选择器等待元素被加载元素交互操作其他及练习一、介绍 1、简单概述官网：http://selenium-python.readthedocs.io 2、安装 #安装：selenium+chromedriver pip3 install selenium 下载阅读全文

posted @ 2018-01-18 20:46 布吉岛丶阅读(219) 评论(0) 推荐(1)

请求库之requests模块

摘要：本片导航：介绍基于GET请求基于POST请求响应Response 高级用法一、介绍官网链接：http://docs.python-requests.org/en/master/ 二、基于GET请求 1、基本请求 2、带参数的GET请求->params #在请求头内将自己伪装成浏览器，否则阅读全文

posted @ 2018-01-18 20:26 布吉岛丶阅读(202) 评论(0) 推荐(0)

爬虫基本原理

摘要：本篇导航：爬虫是什么爬虫的基本流程请求与响应 Request Response 总结一、爬虫是什么二、爬虫的基本流程三、请求与响应四、Request from urllib.parse import urlencode import requests headers={ 'Accept 阅读全文

posted @ 2018-01-18 20:08 布吉岛丶阅读(489) 评论(1) 推荐(2)

布吉岛丶

随笔分类 - python爬虫

公告