Aric Zeng

极致的高深即是简单——列奥纳多.达.芬奇

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2017年10月10日

摘要: 链接:http://www.jb51.net/article/90946.htm 数据提取是分析师日常工作中经常遇到的需求。如某个用户的贷款金额,某个月或季度的利息总收入,某个特定时间段的贷款金额和笔数,大于5000元的贷款数量等等。本篇文章介绍如何通过python按特定的维度或条件对数据进行提取, 阅读全文
posted @ 2017-10-10 22:25 一阵风,静! 阅读(30169) 评论(0) 推荐(0) 编辑

2017年9月26日

摘要: 结合实例来理解比较好,网上找了一下这个enumerate用法,自己也记录一下加深印象 看一下相关链接: 链接1:http://www.cnblogs.com/danielStudy/p/6576040.html 链接2:http://blog.csdn.net/churximi/article/de 阅读全文
posted @ 2017-09-26 12:19 一阵风,静! 阅读(11757) 评论(0) 推荐(1) 编辑

2017年9月25日

摘要: 前人走过的路不用再走,慢慢加上一些工具的链接 GraphLab Create安装,链接地址: http://www.imooc.com/article/18094?block_id=tuijian_wz 近期有很多同学反映在安装GraphLab Create时经常会出现一些错误。因为我在视频中讲的是 阅读全文
posted @ 2017-09-25 14:06 一阵风,静! 阅读(680) 评论(0) 推荐(0) 编辑

2017年9月19日

摘要: 原文链接:http://www.cnblogs.com/ymjyqsx/p/6554817.html 备注:博主还有很多值得学习的笔记,遇到问题可以拜读,非常感谢博主的总结 读写文件是最常见的IO操作。Python内置了读写文件的函数,用法和C是兼容的。 读写文件前,我们先必须了解一下,在磁盘上读写 阅读全文
posted @ 2017-09-19 22:24 一阵风,静! 阅读(5204) 评论(0) 推荐(1) 编辑

2017年9月14日

摘要: 时间戳(timestamp),特定的时刻 固定时期(period),如2017年1月或2017年全年 时间间隔(interval), 由起始和结束时间戳表示 实验或过程时间,每个时间点都有相对于特定起始时间的一个度量 1、日期和时间数据类型及工具 datetime以毫秒形式存储日期和时间,datet 阅读全文
posted @ 2017-09-14 17:51 一阵风,静! 阅读(539) 评论(0) 推荐(0) 编辑

2017年9月13日

摘要: 分组键可以有多种方式,且类型不必相同 列表或数组, 某长度与待分组的轴一样 表示DataFrame某个列名的值 字典或Series,给出待分组轴上的值与分组名之间的对应关系 函数用于处理轴索引或索引中的各个标签 看一下示例: 按key1分组,并计算data1列的平均值。访问data1,并根据key1 阅读全文
posted @ 2017-09-13 22:37 一阵风,静! 阅读(1359) 评论(0) 推荐(0) 编辑

摘要: @合并重叠数据 还有一种数据组合问题不能用简单的合并或连接运算来处理。比如说,你可能有索引全部或部分重叠的两个数据集 使用numpy的where函数,它用于表达一种矢量化的if - else Series有一个combine_first方法,实现的也是一样的功能,而且会进行数据对齐 对于DataFr 阅读全文
posted @ 2017-09-13 16:46 一阵风,静! 阅读(350) 评论(0) 推荐(0) 编辑

摘要: 这一部分非常关键! 数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重塑。 1、合并数据集 pandas对象中的数据可以通过 一些内置的方式进行合并: pandas.merge可根据一个或多个健将不同DataFrame中的行连接起来。实现的就是数据库的连接操作 pandas 阅读全文
posted @ 2017-09-13 10:45 一阵风,静! 阅读(581) 评论(0) 推荐(0) 编辑

2017年9月12日

摘要: 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用web API操作网络资源 1、读写文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,其中read_csv和read_table为用得最多的 这些函数的选项可以划分 阅读全文
posted @ 2017-09-12 22:36 一阵风,静! 阅读(484) 评论(0) 推荐(0) 编辑

2017年9月7日

摘要: 缺失数据(missing data)大部分数据分析应用中非常常见。pd设计目标之一就是让缺失数据的处理任务尽量轻松。 pd 使用浮点值NaN(Not a Number) 表示浮点和非浮点数组中的缺失数据。是一个被检测出来的标识 Na处理方法 1、 滤除缺失数据 只用这种方式丢弃列,只需传入axis 阅读全文
posted @ 2017-09-07 17:28 一阵风,静! 阅读(519) 评论(0) 推荐(0) 编辑