爬虫与数据分析 - 文章分类 - tiger_li

(十九) Pyppeteer模块的基本使用

摘要：引言 Selenium 在被使用的时候有个麻烦事，就是环境的相关配置，得安装好相关浏览器，比如 Chrome、Firefox 等等，然后还要到官方网站去下载对应的驱动，最重要的还需要安装对应的 Python Selenium 库，确实是不是很方便，另外如果要做大规模部署的话，环境配置的一些问题也是个阅读全文

posted @ 2019-10-28 21:19 tiger_li 阅读(557) 评论(0) 推荐(0)

(十) Matplotlib模块介绍

摘要：一、Matplotlib基础知识一、Matplotlib基础知识一、Matplotlib基础知识一、Matplotlib基础知识 Matplotlib中的基本图表包括的元素 x轴和y轴 axis水平和垂直的轴线 x轴和y轴刻度 tick刻度标示坐标轴的分隔，包括最小刻度和最大刻度 x轴和y轴刻阅读全文

posted @ 2019-07-14 18:02 tiger_li 阅读(2202) 评论(0) 推荐(0)

(九) 美国2012年总统候选人政治献金数据分析

摘要：方便大家操作，将月份和参选人以及所在政党进行定义：完成下列需求: 1.读取文件usa_election.txt 2.查看文件样式及基本信息 3.【知识点】使用map函数+字典，新建一列各个候选人所在党派party 4.使用np.unique()函数查看colums：party这一列中有哪些元素 5 阅读全文

posted @ 2019-07-14 17:29 tiger_li 阅读(1086) 评论(2) 推荐(0)

(八) tushare模块的应用

摘要：今日概要 TuShare简介和环境安装 TuShare的应用今日详情一.TuShare简介和环境安装 TuShare是一个著名的免费、开源的python财经数据接口包。其官网主页为：TuShare -财经数据接口包。该接口包如今提供了大量的金融数据，涵盖了股票、基本面、宏观、新闻的等诸多类别数据阅读全文

posted @ 2019-07-10 16:38 tiger_li 阅读(380) 评论(0) 推荐(1)

(七) 金融知识介绍

摘要：今日概要金融股票金融量化投资金融策略今日详情一.金融 - 金融：就是对现有资源进行重新整合之后，实现价值和利润的等效流通。 - 金融工具：在金融市场中可见的金融资产。常见的金融工具有：股票期货黄金基金外汇 ...... 二.股票 - 股票：股票是股份公司发给出资人的一种凭证，股阅读全文

posted @ 2019-07-10 16:34 tiger_li 阅读(343) 评论(0) 推荐(0)

(六) 美国各州人口数据分析

摘要：需求：导入文件，查看原始数据将人口数据和各州简称数据进行合并将合并的数据中重复的abbreviation列进行删除查看存在缺失数据的列找到有哪些state/region使得state的值为NaN，进行去重操作为找到的这些state/region的state项补上正确的值，从而去除掉sta 阅读全文

posted @ 2019-07-10 16:26 tiger_li 阅读(2067) 评论(0) 推荐(1)

(五) Pandas之DataFrame03

摘要：一. 使用drop_duplicates(keep='first/last'/False)函数删除重复的行使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True keep参数表示最终只保留哪一行 first表示阅读全文

posted @ 2019-07-10 16:24 tiger_li 阅读(466) 评论(0) 推荐(0)

(四) Pandas之DataFrame02

摘要：pandas的拼接操作 pandas的拼接分为两种：级联：pd.concat, pd.append 合并：pd.merge, pd.join 1. 使用pd.concat()级联 pandas使用pd.concat函数，与np.concatenate函数类似，只是多了一些参数：匹配级联：就是即将阅读全文

posted @ 2019-07-10 16:17 tiger_li 阅读(310) 评论(0) 推荐(0)

(三) Pandas之DataFrame01

摘要：DataFrame DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。行索引：index 列索引：columns 值：values 一.DataFrame的创阅读全文

posted @ 2019-07-10 16:08 tiger_li 阅读(735) 评论(0) 推荐(0)

(二) Pandas模块之Series

摘要：一.Series Series是一种类似与一维数组的对象，由下面两个部分组成： - values：一组数据（ndarray类型） - index：相关的数据索引标签导包：二.Series的创建两种创建方式： (1) 由列表或numpy数组创建：默认索引为0到N-1的整数型索引 (2) 由字典创阅读全文

posted @ 2019-07-10 15:45 tiger_li 阅读(638) 评论(0) 推荐(0)

(一) numpy模块

摘要：Numpy模块一.什么是数据分析简单来讲数据分析就是是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来，总结出所研究对象的内在规律。在数据分析的学习过程中，我们主要围绕着被称为数据分析三剑客的这三个模块展开讲解，分别是Numpy模块、Pandas模块、Matplatlib模块。二.Numpy模阅读全文

posted @ 2019-06-29 10:19 tiger_li 阅读(847) 评论(0) 推荐(1)

(九) 高性能异步爬虫

摘要：引入很多同学对于异步这个概念只是停留在了“听说很NB”的认知层面上，很少有人能够在项目中真正的使用异步实现高性能的相关操作。本节课，咱们就一起来学习一下，爬虫中如何使用异步实现高性能的数据爬取操作。背景其实爬虫的本质就是client发请求批量获取server的响应数据，如果我们有多个url待爬阅读全文

posted @ 2019-06-22 21:30 tiger_li 阅读(781) 评论(0) 推荐(0)

python+selenium滑动式验证码解决办法

摘要：python+selenium滑动式验证码解决办法示例代码：破解滑动验证另一参考博客: https://blog.csdn.net/yinanmo5569/article/details/81712731 阅读全文

posted @ 2019-06-15 13:02 tiger_li 阅读(7123) 评论(0) 推荐(0)

(十八) 增量式爬虫

摘要：增量式爬虫引言：当我们在浏览相关网页的时候会发现，某些网站定时会在原有网页数据的基础上更新一批数据，例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么，类似的情景，当我们在爬虫的过程中遇到时，我们是不是需要定时更新程序以便能爬取到网站中最近更阅读全文

posted @ 2019-06-15 10:03 tiger_li 阅读(468) 评论(0) 推荐(0)

(十七) 基于scrapy-redis两种形式的分布式爬虫

摘要：redis分布式部署一.scrapy框架是否可以自己实现分布式？不可以, 原因有二: 其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）其二：原生scrapy的管道无法被共享，所以多台机器阅读全文

posted @ 2019-06-15 10:00 tiger_li 阅读(569) 评论(0) 推荐(0)

(十六) Python网络爬虫之Scrapy框架（CrawlSpider）

摘要：引入提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。今日概要 CrawlSpide 阅读全文

posted @ 2019-06-15 09:55 tiger_li 阅读(571) 评论(0) 推荐(0)

(十五) scrapy中selenium的应用

摘要：引入在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取阅读全文

posted @ 2019-06-15 09:47 tiger_li 阅读(2601) 评论(0) 推荐(0)

(十四) UA池和代理池

摘要：今日概要 scrapy下载中间件 UA池代理池今日详情一.下载中间件先祭出框架图：下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 Us 阅读全文

posted @ 2019-06-15 09:44 tiger_li 阅读(544) 评论(0) 推荐(0)

(十三) scrapy框架的日志等级和请求传参

摘要：今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一. Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类： ERROR ：一般错误 WARNING : 警告阅读全文

posted @ 2019-06-15 09:40 tiger_li 阅读(409) 评论(0) 推荐(0)

(十二) scrapy框架之递归解析和post请求

摘要：今日概要递归爬取解析多页页面数据 scrapy核心组件工作流程 scrapy的post请求发送今日详情 1.递归爬取解析多页页面数据需求：将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储需求分析：每一个页面对应一个url，则scrapy工程需要对每一个页码对应的url依次发起请求，阅读全文

posted @ 2019-06-15 09:37 tiger_li 阅读(540) 评论(0) 推荐(0)

TigerLee

文章分类 - 爬虫与数据分析

公告