文章分类 -  爬虫与数据分析

摘要:引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome、Firefox 等等,然后还要到官方网站去下载对应的驱动,最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便,另外如果要做大规模部署的话,环境配置的一些问题也是个 阅读全文
posted @ 2019-10-28 21:19 tiger_li 阅读(557) 评论(0) 推荐(0)
摘要:一、Matplotlib基础知识 一、Matplotlib基础知识 一、Matplotlib基础知识 一、Matplotlib基础知识 Matplotlib中的基本图表包括的元素 x轴和y轴 axis水平和垂直的轴线 x轴和y轴刻度 tick刻度标示坐标轴的分隔,包括最小刻度和最大刻度 x轴和y轴刻 阅读全文
posted @ 2019-07-14 18:02 tiger_li 阅读(2202) 评论(0) 推荐(0)
摘要:方便大家操作,将月份和参选人以及所在政党进行定义: 完成下列需求: 1.读取文件usa_election.txt 2.查看文件样式及基本信息 3.【知识点】使用map函数+字典,新建一列各个候选人所在党派party 4.使用np.unique()函数查看colums:party这一列中有哪些元素 5 阅读全文
posted @ 2019-07-14 17:29 tiger_li 阅读(1086) 评论(2) 推荐(0)
摘要:今日概要 TuShare简介和环境安装 TuShare的应用 今日详情 一.TuShare简介和环境安装 TuShare是一个著名的免费、开源的python财经数据接口包。其官网主页为:TuShare -财经数据接口包。该接口包如今提供了大量的金融数据,涵盖了股票、基本面、宏观、新闻的等诸多类别数据 阅读全文
posted @ 2019-07-10 16:38 tiger_li 阅读(380) 评论(0) 推荐(1)
摘要:今日概要 金融 股票 金融量化投资 金融策略 今日详情 一.金融 - 金融:就是对现有资源进行重新整合之后,实现价值和利润的等效流通。 - 金融工具:在金融市场中可见的金融资产。常见的金融工具有: 股票 期货 黄金 基金 外汇 ...... 二.股票 - 股票:股票是股份公司发给出资人的一种凭证,股 阅读全文
posted @ 2019-07-10 16:34 tiger_li 阅读(343) 评论(0) 推荐(0)
摘要:需求: 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从而去除掉sta 阅读全文
posted @ 2019-07-10 16:26 tiger_li 阅读(2067) 评论(0) 推荐(1)
摘要:一. 使用drop_duplicates(keep='first/last'/False)函数删除重复的行 使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True keep参数表示最终只保留哪一行 first表示 阅读全文
posted @ 2019-07-10 16:24 tiger_li 阅读(466) 评论(0) 推荐(0)
摘要:pandas的拼接操作 pandas的拼接分为两种: 级联:pd.concat, pd.append 合并:pd.merge, pd.join 1. 使用pd.concat()级联 pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数: 匹配级联:就是即将 阅读全文
posted @ 2019-07-10 16:17 tiger_li 阅读(310) 评论(0) 推荐(0)
摘要:DataFrame DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。 行索引:index 列索引:columns 值:values 一.DataFrame的创 阅读全文
posted @ 2019-07-10 16:08 tiger_li 阅读(735) 评论(0) 推荐(0)
摘要:一.Series Series是一种类似与一维数组的对象,由下面两个部分组成: - values:一组数据(ndarray类型) - index:相关的数据索引标签 导包: 二.Series的创建 两种创建方式: (1) 由列表或numpy数组创建:默认索引为0到N-1的整数型索引 (2) 由字典创 阅读全文
posted @ 2019-07-10 15:45 tiger_li 阅读(638) 评论(0) 推荐(0)
摘要:Numpy模块 一.什么是数据分析 简单来讲数据分析就是是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律。在数据分析的学习过程中,我们主要围绕着被称为数据分析三剑客的这三个模块展开讲解,分别是Numpy模块、Pandas模块、Matplatlib模块。 二.Numpy模 阅读全文
posted @ 2019-06-29 10:19 tiger_li 阅读(847) 评论(0) 推荐(1)
摘要:引入 很多同学对于异步这个概念只是停留在了“听说很NB”的认知层面上,很少有人能够在项目中真正的使用异步实现高性能的相关操作。本节课,咱们就一起来学习一下,爬虫中如何使用异步实现高性能的数据爬取操作。 背景 其实爬虫的本质就是client发请求批量获取server的响应数据,如果我们有多个url待爬 阅读全文
posted @ 2019-06-22 21:30 tiger_li 阅读(781) 评论(0) 推荐(0)
摘要:python+selenium滑动式验证码解决办法 示例代码: 破解滑动验证 另一参考博客: https://blog.csdn.net/yinanmo5569/article/details/81712731 阅读全文
posted @ 2019-06-15 13:02 tiger_li 阅读(7123) 评论(0) 推荐(0)
摘要:增量式爬虫 引言: 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更 阅读全文
posted @ 2019-06-15 10:03 tiger_li 阅读(468) 评论(0) 推荐(0)
摘要:redis分布式部署 一.scrapy框架是否可以自己实现分布式? 不可以, 原因有二: 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 其二:原生scrapy的管道无法被共享,所以多台机器 阅读全文
posted @ 2019-06-15 10:00 tiger_li 阅读(569) 评论(0) 推荐(0)
摘要:引入 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 今日概要 CrawlSpide 阅读全文
posted @ 2019-06-15 09:55 tiger_li 阅读(571) 评论(0) 推荐(0)
摘要:引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取 阅读全文
posted @ 2019-06-15 09:47 tiger_li 阅读(2601) 评论(0) 推荐(0)
摘要:今日概要 scrapy下载中间件 UA池 代理池 今日详情 一.下载中间件 先祭出框架图: 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 作用: (1)引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 Us 阅读全文
posted @ 2019-06-15 09:44 tiger_li 阅读(544) 评论(0) 推荐(0)
摘要:今日概要 日志等级 请求传参 如何提高scrapy的爬取效率 今日详情 一. Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类: ERROR : 一般错误 WARNING : 警告 阅读全文
posted @ 2019-06-15 09:40 tiger_li 阅读(409) 评论(0) 推荐(0)
摘要:今日概要 递归爬取解析多页页面数据 scrapy核心组件工作流程 scrapy的post请求发送 今日详情 1.递归爬取解析多页页面数据 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求, 阅读全文
posted @ 2019-06-15 09:37 tiger_li 阅读(540) 评论(0) 推荐(0)