随笔分类 - 数据分析
基于python的数据分析
摘要:数据变换主要是对数据进行规范化处理,达到适用于挖掘的目的。 简单的函数变换包括平方、开方、取对数查分运算等,可以将不具有正态分布的数据变换成具有正态分布的数据,对于时间序列分析,有时简单的对数变换和差分运算就可以将非平稳序列转换成平稳序列。 数据规范化 1、最大——最小规范化 :X *=(x-min
阅读全文
摘要:数据清洗主要是删除原始数据集中的无关数据、重复数据,过滤与挖掘主题无关的数据,处理缺失值和异常值。 缺失值的处理办法 1、不处理 2、删除记录 3、数据插补 a、插补均值、中位数、众数 b、使用固定值,用一个常量替换。如一个普通工人的工资缺失,可以按照当地的工资标准给值 c、最近插补:利用与缺失样本
阅读全文
摘要:数据特征分析包括以下几个方面的内容: 1、分布分析 a、定量数据分布分析:绘制频率直方分布图 b、定性数据分布分析:根据变量的分类类型分组,绘制饼图和条形图来描述分布 2、对比分析 a、绝对数对比 b、相对数对比(如结构相对数、比例相对数) 3、统计量分析 a、集中趋势度量:均值、中位数、众数 b、
阅读全文
摘要:Pandas数据结构 与R语言一样,python也常用于数据分析。除了常用的科学计算库Numpy和绘图库matplotlib之外,pandas也给python提供了强大助力。 首先要认识pandas的两种强大的数据结构Series和DataFrame。其中Series就是序列,类似一维数组,索引在左
阅读全文
摘要:前一篇文章,介绍了如何用matplotlib绘制一些简单的图。通常在图上需要添加很多的标注信息,如添加图例。 前面我们都是用plot函数绘制线图。下面来绘制柱状图。 当然我们绘制的图不会就这样简陋: 下面是饼状图的绘制,这个例子来源于官方使用指南: 效果图如下: matplotlib的绘图功能是能够
阅读全文
摘要:前两篇文章简单介绍了科学计算Numpy的一些常用方法,还有一些其他内容,会在后面的实例中学习。下面介绍另一个模块——Matplotlib。 Matplotlib是一个Python 2D绘图库,试图让复杂的绘图可视化工作变得简单。只需几行代码即可生成绘图,直方图,功率谱,条形图,误差图,散点图等2D图
阅读全文
摘要:上一篇文章简单地介绍了numpy的一些基本数据类型,以及生成数组和矩阵的操作。下面我们来看一下矩阵的基本运算。在线性代数中,常见的矩阵运算包括,计算行列式、求逆矩阵、矩阵的秩等。下面我们来一一实现。 可以看出来,,,行列式的值为零时,该矩阵不可逆。符合数学规律的。还有其他函数功能,例如切片、复制等。
阅读全文
摘要:在本科阶段,我们常用的科学计算工具是MATLAB。下面介绍python的一个非常好用而且功能强大的科学计算库——Numpy。 a powerful N-dimensional array object(一个强大的N维数组对象) sophisticated (broadcasting) functio
阅读全文

浙公网安备 33010602011771号