随笔分类 -  数据采集(爬虫)

摘要:[TOC] 验证码处理 云打码平台处理验证码的实现流程: 1.对携带验证码的页面数据进行抓取 2.可以将页面数据中验证码进行解析,验证码图片下载到本地 3.可以将验证码图片提交给三方平台进行识别,返回验证码图片上的数据值 云打码平台: 1.在官网中进行注册(普通用户和开发者用户) 2.登录开发者用户 阅读全文
posted @ 2019-05-04 18:13 孔辉 阅读(278) 评论(0) 推荐(0)
摘要:[TOC] 基于requests模块的cookie,session和线程池爬取 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: !/usr/bin/env python cod 阅读全文
posted @ 2019-05-04 18:12 孔辉 阅读(584) 评论(0) 推荐(0)
摘要:[TOC] 03.requests模块(1) Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。 今日概要: 基于requests 阅读全文
posted @ 2019-04-07 21:36 孔辉 阅读(344) 评论(0) 推荐(0)
摘要:[TOC] 04. 三种数据解析方式 回顾requests实现数据爬取的流程: 1. 指定url 1. 基于requests模块发起请求 1. 获取响应对象中的数据 1. 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都 阅读全文
posted @ 2019-04-07 21:35 孔辉 阅读(1033) 评论(0) 推荐(0)
摘要:[TOC] 02. 爬取get请求的页面数据 一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urll 阅读全文
posted @ 2019-04-07 21:34 孔辉 阅读(582) 评论(1) 推荐(0)
摘要:[TOC] 01. jupyter环境安装 一. 什么是 jupyter Notebook? 1.简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍 简而言之,Jupyte 阅读全文
posted @ 2019-04-07 21:32 孔辉 阅读(379) 评论(0) 推荐(0)