随笔分类 - python爬虫
摘要:本篇导航: 介绍 scrapy-redis组件 一、介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scr
阅读全文
摘要:本篇导航: 介绍与安装 命令行工具 项目结构以及爬虫应用简介 Spiders 其它介绍 爬取亚马逊商品信息 一、介绍与安装 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用
阅读全文
摘要:安装pywin32报错:python version 3.6 required,which was not fount in the registry(python3.6安装scrapy)
阅读全文
摘要:本篇导航: 背景知识 同步、异步、回调机制 高性能 一、背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,
阅读全文
摘要:本篇导航: 简介 MongoDB基础知识 安装 基本数据类型 CRUD操作 其它 存储库之mysql 一、简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库1、易用性 MongoDB是一个面向文档(document-oriented)的数据库,而不是关系型数据库。 不采用关系型主要是为了
阅读全文
摘要:本篇导航: 介绍 基本使用 遍历文档树 搜索文档树 总结 re模块在之前的python进阶中有讲过不再做过多的阐述,本篇为BeautifulSoup库的分析 20、collections模块和re模块(正则表达式详解) 一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数
阅读全文
摘要:本篇导航: 介绍 实现 说明 一、介绍 一些网站会在正常的账号密码认证之外加一些验证码,以此来明确地区分人/机行为,从一定程度上达到反爬的效果,对于简单的校验码Tesserocr就可以搞定,如下 但一些网站加入了滑动验证码,最典型的要属于极验滑动认证了,极验官网:http://www.geetest
阅读全文
摘要:本片导航: 介绍及安装 基本使用 选择器 等待元素被加载 元素交互操作 其他及练习 一、介绍 1、简单概述 官网:http://selenium-python.readthedocs.io 2、安装 #安装:selenium+chromedriver pip3 install selenium 下载
阅读全文
摘要:本片导航: 介绍 基于GET请求 基于POST请求 响应Response 高级用法 一、介绍 官网链接:http://docs.python-requests.org/en/master/ 二、基于GET请求 1、基本请求 2、带参数的GET请求->params #在请求头内将自己伪装成浏览器,否则
阅读全文
摘要:本篇导航: 爬虫是什么 爬虫的基本流程 请求与响应 Request Response 总结 一、爬虫是什么 二、爬虫的基本流程 三、请求与响应 四、Request from urllib.parse import urlencode import requests headers={ 'Accept
阅读全文

浙公网安备 33010602011771号