python数据分析之numpy和pandas
python常用网址:
1.Python官网: https://www.python.org/
2.各种库的whl离线安装包: [ http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn
](http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn
"http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn")
3.数据分析常用库的离线安装包(pip+wheels)(百度云): [ http://pan.baidu.com/s/1dEMXbfN
](http://pan.baidu.com/s/1dEMXbfN) 密码:bbs2
[
](http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn
"http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn") 二、常用库
1.NumPy
NumPy是高性能科学计算和数据分析的基础包。部分功能如下:
-
- ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
- 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。
- 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
- 线性代数、随机数生成以及傅里叶变换功能。
- 用于集成C、C++、Fortran等语言编写的代码的工具。
首先要导入numpy库:import numpy as np
A NumPy函数和属性:
| 类型 | 类型代码 | 说明 |
|---|---|---|
| int8、uint8 | i1、u1 | 有符号和无符号8位整型(1字节) |
| int16、uint16 | i2、u2 | 有符号和无符号16位整型(2字节) |
| int32、uint32 | i4、u4 | 有符号和无符号32位整型(4字节) |
| int64、uint64 | i8、u8 | 有符号和无符号64位整型(8字节) |
| float16 | f2 | 半精度浮点数 |
| float32 | f4、f | 单精度浮点数 |
| float64 | f8、d | 双精度浮点数 |
| float128 | f16、g | 扩展精度浮点数 |
| complex64 | c8 | 分别用两个32位表示的复数 |
| complex128 | c16 | 分别用两个64位表示的复数 |
| complex256 | c32 | 分别用两个128位表示的复数 |
| bool | ? | 布尔型 |
| object | O | python对象 |
| string | Sn | 固定长度字符串,每个字符1字节,如S10 |
| unicode | Un | 固定长度Unicode,字节数由系统决定,如U10 |
表2.1.A.1 NumPy类型
| 生成函数 | 作用 |
|---|
np.array( x)
np.array( x, dtype)
|
将输入数据转化为一个ndarray
将输入数据转化为一个类型为type的ndarray
np.asarray( array ) | 将输入数据转化为一个新的(copy)ndarray
np.ones( N )
np.ones( N, dtype)
np.ones_like( ndarray )
|
生成一个N长度的一维全一ndarray
生成一个N长度类型是dtype的一维全一ndarray
生成一个形状与参数相同的全一ndarray
np.zeros( N)
np.zeros( N, dtype)
np.zeros_like(ndarray)
|
生成一个N长度的一维全零ndarray
生成一个N长度类型位dtype的一维全零ndarray
类似np.ones_like( ndarray )
np.empty( N )
np.empty( N, dtype)
np.empty(ndarray)
|
生成一个N长度的未初始化一维ndarray
生成一个N长度类型是dtype的未初始化一维ndarray
类似np.ones_like( ndarray )
np.eye( N )
np.identity( N )
|
创建一个N * N的单位矩阵(对角线为1,其余为0)
np.arange( num)
np.arange( begin, end)
np.arange( begin, end, step)
|
生成一个从0到num-1步数为1的一维ndarray
生成一个从begin到end-1步数为1的一维ndarray
生成一个从begin到end-step的步数为step的一维ndarray
np.mershgrid(ndarray, ndarray,...)
|
生成一个ndarray * ndarray * ...的多维ndarray
np.where(cond, ndarray1, ndarray2)
|
根据条件cond,选取ndarray1或者ndarray2,返回一个新的ndarray
np.in1d(ndarray, [x,y,...])
|
检查ndarray中的元素是否等于[x,y,...]中的一个,返回bool数组
|
矩阵函数 | 说明
np.diag( ndarray)
np.diag( [x,y,...])
|
以一维数组的形式返回方阵的对角线(或非对角线)元素
将一维数组转化为方阵(非对角线元素为0)
np.dot(ndarray, ndarray) | 矩阵乘法
np.trace( ndarray) | 计算对角线元素的和
|
|
排序函数
|
说明
np.sort( ndarray)
|
排序,返回副本
np.unique(ndarray)
|
返回ndarray中的元素,排除重复元素之后,并进行排序
np.intersect1d( ndarray1, ndarray2)
np.union1d( ndarray1, ndarray2)
np.setdiff1d( ndarray1, ndarray2)
np.setxor1d( ndarray1, ndarray2)
|
返回二者的交集并排序。
返回二者的并集并排序。
返回二者的差。
返回二者的对称差
|
一元计算函数 | 说明
np.abs(ndarray)
np.fabs(ndarray)
|
计算绝对值
计算绝对值(非复数)
np.mean(ndarray)
|
求平均值
np.sqrt(ndarray)
|
计算x^0.5
np.square(ndarray)
|
计算x^2
np.exp(ndarray)
|
计算e^x
log、log10、log2、log1p
|
计算自然对数、底为10的log、底为2的log、底为(1+x)的log
np.sign(ndarray)
|
计算正负号:1(正)、0(0)、-1(负)
np.ceil(ndarray)
np.floor(ndarray)
np.rint(ndarray)
|
计算大于等于改值的最小整数
计算小于等于该值的最大整数
四舍五入到最近的整数,保留dtype
np.modf(ndarray)
|
将数组的小数和整数部分以两个独立的数组方式返回
np.isnan(ndarray)
|
返回一个判断是否是NaN的bool型数组
np.isfinite(ndarray)
np.isinf(ndarray)
|
返回一个判断是否是有穷(非inf,非NaN)的bool型数组
返回一个判断是否是无穷的bool型数组
cos、cosh、sin、sinh、tan、tanh
|
普通型和双曲型三角函数
arccos、arccosh、arcsin、arcsinh、arctan、arctanh
|
反三角函数和双曲型反三角函数
np.logical_not(ndarray)
|
计算各元素not x的真值,相当于-ndarray
多元计算函数
|
说明
np.add(ndarray, ndarray)
np.subtract(ndarray, ndarray)
np.multiply(ndarray, ndarray)
np.divide(ndarray, ndarray)
np.floor_divide(ndarray, ndarray)
np.power(ndarray, ndarray)
np.mod(ndarray, ndarray)
|
相加
相减
乘法
除法
圆整除法(丢弃余数)
次方
求模
np.maximum(ndarray, ndarray)
np.fmax(ndarray, ndarray)
np.minimun(ndarray, ndarray)
np.fmin(ndarray, ndarray)
|
求最大值
求最大值(忽略NaN)
求最小值
求最小值(忽略NaN)
np.copysign(ndarray, ndarray)
|
将参数2中的符号赋予参数1
np.greater(ndarray, ndarray)
np.greater_equal(ndarray, ndarray)
np.less(ndarray, ndarray)
np.less_equal(ndarray, ndarray)
np.equal(ndarray, ndarray)
np.not_equal(ndarray, ndarray)
|
=
<
<=
==
!=
logical_and(ndarray, ndarray)
logical_or(ndarray, ndarray)
logical_xor(ndarray, ndarray)
|
&
|
^
np.dot( ndarray, ndarray) | 计算两个ndarray的矩阵内积
np.ix_([x,y,m,n],...) | 生成一个索引器,用于Fancy indexing(花式索引)
|
文件读写 | 说明
np.save(string, ndarray) | 将ndarray保存到文件名为 [string].npy 的文件中(无压缩)
np.savez(string, ndarray1, ndarray2, ...) |
将所有的ndarray压缩保存到文件名为[string].npy的文件中
np.savetxt(sring, ndarray, fmt, newline='\n') | 将ndarray写入文件,格式为fmt
np.load(string) | 读取文件名string的文件内容并转化为ndarray对象(或字典对象)
np.loadtxt(string, delimiter) | 读取文件名string的文件内容,以delimiter为分隔符转化为ndarray
表2.1.A.2 np常用函数
B NumPy.ndarray函数和属性:
| ndarray.ndim | 获取ndarray的维数 |
|---|---|
| ndarray.shape | 获取ndarray各个维度的长度 |
| ndarray.dtype | 获取ndarray中元素的数据类型 |
| ndarray.T | 简单转置矩阵ndarray |
表2.1.B.1 ndarray属性
| 函数 | 说明 |
|---|---|
| ndarray.astype(dtype) | 转换类型,若转换失败则会出现TypeError |
| ndarray.copy() | 复制一份ndarray(新的内存空间) |
| ndarray.reshape((N,M,...)) | 将ndarray转化为NM...的多维ndarray(非copy) |
| ndarray.transpose((xIndex,yIndex,...)) |
根据维索引xIndex,yIndex...进行矩阵转置,依赖于shape,不能用于一维矩阵(非copy)
ndarray.swapaxes(xIndex,yIndex) | 交换维度(非copy)
|
计算函数 | 说明
ndarray.mean( axis=0 ) | 求平均值
ndarray.sum( axis= 0) | 求和
ndarray.cumsum( axis=0)
ndarray.cumprod( axis=0)
|
累加
累乘
ndarray.std()
ndarray.var()
|
方差
标准差
ndarray.max()
ndarray.min()
|
最大值
最小值
ndarray.argmax()
ndarray.argmin()
|
最大值索引
最小值索引
ndarray.any()
ndarray.all()
|
是否至少有一个True
是否全部为True
ndarray.dot( ndarray)
|
计算矩阵内积
排序函数
|
说明
ndarray.sort(axis=0)
|
排序,返回源数据
表2.1.B.2 ndarray函数
| ndarray[n] | 选取第n+1个元素 |
|---|---|
| ndarray[n:m] | 选取第n+1到第m个元素 |
| ndarray[:] | 选取全部元素 |
| ndarray[n:] | 选取第n+1到最后一个元素 |
| ndarray[:n] | 选取第0到第n个元素 |
ndarray[ bool_ndarray ]
注:bool_ndarray表示bool类型的ndarray
| 选取为true的元素
ndarray[[x,y,m,n]]...
| 选取顺序和序列为x、y、m、n的ndarray
ndarray[n,m]
ndarray[n][m]
| 选取第n+1行第m+1个元素
ndarray[n,m,...]
ndarray[n][m]....
| 选取n行n列....的元素
表2.1.B.3 ndarray索引/切片方式
C NumPy.random函数和属性:
| 函数 | 说明 |
|---|
seed()
seed(int)
seed(ndarray)
| 确定随机数生成种子
permutation(int)
permutation(ndarray)
|
返回一个一维从0~9的序列的随机排列
返回一个序列的随机排列
shuffle(ndarray) | 对一个序列就地随机排列
rand(int)
randint(begin,end,num=1)
|
产生int个均匀分布的样本值
从给定的begin和end随机选取num个整数
randn(N, M, ...) | 生成一个NM...的正态分布(平均值为0,标准差为1)的ndarray
normal(size=(N,M,...)) | 生成一个NM...的正态(高斯)分布的ndarray
beta(ndarray1,ndarray2) | 产生beta分布的样本值,参数必须大于0
chisquare() | 产生卡方分布的样本值
gamma() | 产生gamma分布的样本值
uniform() | 产生在[0,1)中均匀分布的样本值
2.1.C.1 random常用函数
D NumPy.linalg函数和属性:
| 函数 | 说明 |
|---|---|
| det(ndarray) | 计算矩阵列式 |
| eig(ndarray) | 计算方阵的本征值和本征向量 |
inv(ndarray)
pinv(ndarray)
|
计算方阵的逆
计算方阵的Moore-Penrose伪逆
qr(ndarray) | 计算qr分解
svd(ndarray) | 计算奇异值分解svd
solve(ndarray) | 解线性方程组Ax = b,其中A为方阵
lstsq(ndarray) | 计算Ax=b的最小二乘解
2.1.D.1 linalg常用函数
2.Pandas
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas
纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
from pandas import Series, DataFrame
import pandas as pd
A.pandas
| 函数 | 说明 |
|---|
pd.isnull(series)
pd.notnull(series)
|
判断是否为空(NaN)
判断是否不为空(not NaN)
|
|
2.2.A.1 pandas常用函数
B.Series
| Series可以运用ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。 属性 | 说明 |
|---|---|
| values | 获取数组 |
| index | 获取索引 |
| name | values的name |
| index.name | 索引的name |
2.2.B.1 Series常用属性
| 函数 | 说明 |
|---|---|
| Series([x,y,...])Series({'a':x,'b':y,...}, index=param1) | 生成一个Series |
| Series.copy() | 复制一个Series |
Series.reindex([x,y,...], fill_value=NaN)
Series.reindex([x,y,...], method=NaN)
Series.reindex(columns=[x,y,...])
|
重返回一个适应新索引的新对象,将缺失值填充为fill_value
返回适应新索引的新对象,填充方式为method
对列进行重新索引
Series.drop(index) | 丢弃指定项
Series.map(f) | 应用元素级函数
|
排序函数 | 说明
Series.sort_index(ascending=True) | 根据索引返回已排序的新对象
Series.order(ascending=True) | 根据值返回已排序的对象,NaN值在末尾
Series.rank(method='average', ascending=True, axis=0) | 为各组分配一个平均排名
df.argmax()
df.argmin()
|
返回含有最大值的索引位置
返回含有最小值的索引位置
2.2.B.2 Series常用函数
reindex的method选项:
ffill, bfill 向前填充/向后填充
pad, backfill 向前搬运,向后搬运
rank的method选项
'average' 在相等分组中,为各个值分配平均排名
'max','min' 使用整个分组中的最小排名
'first' 按值在原始数据中出现的顺序排名
C.DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。
DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。
为不存在的列赋值会创建新列。
del frame['xxx'] # 删除列
| 属性 | 说明 |
|---|---|
| values | DataFrame的值 |
| index | 行索引 |
| index.name | 行索引的名字 |
| columns | 列索引 |
| columns.name | 列索引的名字 |
| ix | 返回行的DataFrame |
| ix[[x,y,...], [x,y,...]] | 对行重新索引,然后对列重新索引 |
| T | frame行列转置 |
2.2.C.1 DataFrame常用属性
| 函数 | 说明 |
|---|
DataFrame(dict, columns=dict.index, index=[dict.columnnum])
DataFrame(二维ndarray)
DataFrame(由数组、列表或元组组成的字典)
DataFrame(NumPy的结构化/记录数组)
DataFrame(由Series组成的字典)
DataFrame(由字典组成的字典)
DataFrame(字典或Series的列表)
DataFrame(由列表或元组组成的列表)
DataFrame(DataFrame)
DataFrame(NumPy的MaskedArray)
|
构建DataFrame
数据矩阵,还可以传入行标和列标
每个序列会变成DataFrame的一列。所有序列的长度必须相同
类似于“由数组组成的字典”
每个Series会成为一列。如果没有显式制定索引,则各Series的索引会被合并成结果的行索引
各内层字典会成为一列。键会被合并成结果的行索引。
各项将会成为DataFrame的一行。索引的并集会成为DataFrame的列标。
类似于二维ndarray
沿用DataFrame
类似于二维ndarray,但掩码结果会变成NA/缺失值
df.reindex([x,y,...], fill_value=NaN, limit)
df.reindex([x,y,...], method=NaN)
df.reindex([x,y,...], columns=[x,y,...],copy=True)
|
返回一个适应新索引的新对象,将缺失值填充为fill_value,最大填充量为limit
返回适应新索引的新对象,填充方式为method
同时对行和列进行重新索引,默认复制新对象。
df.drop(index, axis=0) | 丢弃指定轴上的指定项。
|
排序函数 | 说明
df.sort_index(axis=0, ascending=True)
df.sort_index(by=[a,b,...])
| 根据索引排序
|
汇总统计函数 | 说明
df.count() | 非NaN的数量
df.describe() | 一次性产生多个汇总统计
df.min()
df.min()
|
最小值
最大值
df.idxmax(axis=0, skipna=True)
df.idxmin(axis=0, skipna=True)
|
返回含有最大值的index的Series
返回含有最小值的index的Series
df.quantile(axis=0) | 计算样本的分位数
df.sum(axis=0, skipna=True, level=NaN)
df.mean(axis=0, skipna=True, level=NaN)
df.median(axis=0, skipna=True, level=NaN)
df.mad(axis=0, skipna=True, level=NaN)
df.var(axis=0, skipna=True, level=NaN)
df.std(axis=0, skipna=True, level=NaN)
df.skew(axis=0, skipna=True, level=NaN)
df.kurt(axis=0, skipna=True, level=NaN)
df.cumsum(axis=0, skipna=True, level=NaN)
df.cummin(axis=0, skipna=True, level=NaN)
df.cummax(axis=0, skipna=True, level=NaN)
df.cumprod(axis=0, skipna=True, level=NaN)
df.diff(axis=0)
df.pct_change(axis=0)
|
返回一个含有求和小计的Series
返回一个含有平均值的Series
返回一个含有算术中位数的Series
返回一个根据平均值计算平均绝对离差的Series
返回一个方差的Series
返回一个标准差的Series
返回样本值的偏度(三阶距)
返回样本值的峰度(四阶距)
返回样本的累计和
返回样本的累计最大值
返回样本的累计最小值
返回样本的累计积
返回样本的一阶差分
返回样本的百分比数变化
|
|
计算函数 | 说明
df.add(df2, fill_value=NaN, axist=1)
df.sub(df2, fill_value=NaN, axist=1)
df.div(df2, fill_value=NaN, axist=1)
df.mul(df2, fill_value=NaN, axist=1)
|
元素级相加,对齐时找不到元素默认用fill_value
元素级相减,对齐时找不到元素默认用fill_value
元素级相除,对齐时找不到元素默认用fill_value
元素级相乘,对齐时找不到元素默认用fill_value
df.apply(f, axis=0) | 将f函数应用到由各行各列所形成的一维数组上
df.applymap(f) | 将f函数应用到各个元素上
df.cumsum(axis=0, skipna=True) | 累加,返回累加后的dataframe
2.2.C.2 Dataframe常用函数
| 索引方式 | 说明 |
|---|---|
| df[val] | 选取DataFrame的单个列或一组列 |
| df.ix[val] | 选取Dataframe的单个行或一组行 |
| df.ix[:,val] | 选取单个列或列子集 |
| df.ix[val1,val2] | 将一个或多个轴匹配到新索引 |
| reindex方法 | 将一个或多个轴匹配到新索引 |
| xs方法 | 根据标签选取单行或者单列,返回一个Series |
| icol、irow方法 | 根据整数位置选取单列或单行,并返回一个Series |
| get_value、set_value | 根据行标签和列标签选取单个值 |
2.2.C.3 Dataframe常用索引方式
运算:
默认情况下,Dataframe和Series之间的算术运算会将Series的索引匹配到的Dataframe的列,沿着列一直向下传播。若索引找不到,则会重新索引产生并集。
D.Index
pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index。
Index对象不可修改,从而在多个数据结构之间安全共享。
| 主要的Index对象 | 说明 |
|---|---|
| Index | 最广泛的Index对象,将轴标签表示为一个由Python对象组成的NumPy数组 |
| Int64Index | 针对整数的特殊Index |
| MultiIndex | “层次化”索引对象,表示单个轴上的多层索引。可以看做由元组组成的数组 |
| DatetimeIndex | 存储纳秒级时间戳(用NumPy的Datetime64类型表示) |
| PeriodIndex | 针对Period数据(时间间隔)的特殊Index |
2.2.D.1 主要的Index属性
| 函数 | 说明 |
|---|---|
| Index([x,y,...]) | 创建索引 |
| append(Index) | 连接另一个Index对象,产生一个新的Index |
| diff(Index) | 计算差集,产生一个新的Index |
| intersection(Index) | 计算交集 |
| union(Index) | 计算并集 |
| isin(Index) | 检查是否存在与参数索引中,返回bool型数组 |
| delete(i) | 删除索引i处元素,得到新的Index |
| drop(str) | 删除传入的值,得到新Index |
| insert(i,str) | 将元素插入到索引i处,得到新Index |
| is_monotonic() | 当各元素大于前一个元素时,返回true |
| is_unique() | 当Index没有重复值时,返回true |
| unique() | 计算Index中唯一值的数组 |
目录 (?) [ [-]
](https://blog.csdn.net/kevin_zhao_zl/article/details/76945414# "收起")
一、常用链接:
1.Python官网: https://www.python.org/
2.各种库的whl离线安装包: [ http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn
](http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn
"http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn")
3.数据分析常用库的离线安装包(pip+wheels)(百度云): [ http://pan.baidu.com/s/1dEMXbfN
](http://pan.baidu.com/s/1dEMXbfN) 密码:bbs2
[
](http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn
"http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn") 二、常用库
1.NumPy
NumPy是高性能科学计算和数据分析的基础包。部分功能如下:
-
- ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
- 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。
- 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
- 线性代数、随机数生成以及傅里叶变换功能。
- 用于集成C、C++、Fortran等语言编写的代码的工具。
首先要导入numpy库:import numpy as np
A NumPy函数和属性:
| 类型 | 类型代码 | 说明 |
|---|---|---|
| int8、uint8 | i1、u1 | 有符号和无符号8位整型(1字节) |
| int16、uint16 | i2、u2 | 有符号和无符号16位整型(2字节) |
| int32、uint32 | i4、u4 | 有符号和无符号32位整型(4字节) |
| int64、uint64 | i8、u8 | 有符号和无符号64位整型(8字节) |
| float16 | f2 | 半精度浮点数 |
| float32 | f4、f | 单精度浮点数 |
| float64 | f8、d | 双精度浮点数 |
| float128 | f16、g | 扩展精度浮点数 |
| complex64 | c8 | 分别用两个32位表示的复数 |
| complex128 | c16 | 分别用两个64位表示的复数 |
| complex256 | c32 | 分别用两个128位表示的复数 |
| bool | ? | 布尔型 |
| object | O | python对象 |
| string | Sn | 固定长度字符串,每个字符1字节,如S10 |
| unicode | Un | 固定长度Unicode,字节数由系统决定,如U10 |
表2.1.A.1 NumPy类型
| 生成函数 | 作用 |
|---|
np.array( x)
np.array( x, dtype)
|
将输入数据转化为一个ndarray
将输入数据转化为一个类型为type的ndarray
np.asarray( array ) | 将输入数据转化为一个新的(copy)ndarray
np.ones( N )
np.ones( N, dtype)
np.ones_like( ndarray )
|
生成一个N长度的一维全一ndarray
生成一个N长度类型是dtype的一维全一ndarray
生成一个形状与参数相同的全一ndarray
np.zeros( N)
np.zeros( N, dtype)
np.zeros_like(ndarray)
|
生成一个N长度的一维全零ndarray
生成一个N长度类型位dtype的一维全零ndarray
类似np.ones_like( ndarray )
np.empty( N )
np.empty( N, dtype)
np.empty(ndarray)
|
生成一个N长度的未初始化一维ndarray
生成一个N长度类型是dtype的未初始化一维ndarray
类似np.ones_like( ndarray )
np.eye( N )
np.identity( N )
|
创建一个N * N的单位矩阵(对角线为1,其余为0)
np.arange( num)
np.arange( begin, end)
np.arange( begin, end, step)
|
生成一个从0到num-1步数为1的一维ndarray
生成一个从begin到end-1步数为1的一维ndarray
生成一个从begin到end-step的步数为step的一维ndarray
np.mershgrid(ndarray, ndarray,...)
|
生成一个ndarray * ndarray * ...的多维ndarray
np.where(cond, ndarray1, ndarray2)
|
根据条件cond,选取ndarray1或者ndarray2,返回一个新的ndarray
np.in1d(ndarray, [x,y,...])
|
检查ndarray中的元素是否等于[x,y,...]中的一个,返回bool数组
|
矩阵函数 | 说明
np.diag( ndarray)
np.diag( [x,y,...])
|
以一维数组的形式返回方阵的对角线(或非对角线)元素
将一维数组转化为方阵(非对角线元素为0)
np.dot(ndarray, ndarray) | 矩阵乘法
np.trace( ndarray) | 计算对角线元素的和
|
|
排序函数
|
说明
np.sort( ndarray)
|
排序,返回副本
np.unique(ndarray)
|
返回ndarray中的元素,排除重复元素之后,并进行排序
np.intersect1d( ndarray1, ndarray2)
np.union1d( ndarray1, ndarray2)
np.setdiff1d( ndarray1, ndarray2)
np.setxor1d( ndarray1, ndarray2)
|
返回二者的交集并排序。
返回二者的并集并排序。
返回二者的差。
返回二者的对称差
|
一元计算函数 | 说明
np.abs(ndarray)
np.fabs(ndarray)
|
计算绝对值
计算绝对值(非复数)
np.mean(ndarray)
|
求平均值
np.sqrt(ndarray)
|
计算x^0.5
np.square(ndarray)
|
计算x^2
np.exp(ndarray)
|
计算e^x
log、log10、log2、log1p
|
计算自然对数、底为10的log、底为2的log、底为(1+x)的log
np.sign(ndarray)
|
计算正负号:1(正)、0(0)、-1(负)
np.ceil(ndarray)
np.floor(ndarray)
np.rint(ndarray)
|
计算大于等于改值的最小整数
计算小于等于该值的最大整数
四舍五入到最近的整数,保留dtype
np.modf(ndarray)
|
将数组的小数和整数部分以两个独立的数组方式返回
np.isnan(ndarray)
|
返回一个判断是否是NaN的bool型数组
np.isfinite(ndarray)
np.isinf(ndarray)
|
返回一个判断是否是有穷(非inf,非NaN)的bool型数组
返回一个判断是否是无穷的bool型数组
cos、cosh、sin、sinh、tan、tanh
|
普通型和双曲型三角函数
arccos、arccosh、arcsin、arcsinh、arctan、arctanh
|
反三角函数和双曲型反三角函数
np.logical_not(ndarray)
|
计算各元素not x的真值,相当于-ndarray
多元计算函数
|
说明
np.add(ndarray, ndarray)
np.subtract(ndarray, ndarray)
np.multiply(ndarray, ndarray)
np.divide(ndarray, ndarray)
np.floor_divide(ndarray, ndarray)
np.power(ndarray, ndarray)
np.mod(ndarray, ndarray)
|
相加
相减
乘法
除法
圆整除法(丢弃余数)
次方
求模
np.maximum(ndarray, ndarray)
np.fmax(ndarray, ndarray)
np.minimun(ndarray, ndarray)
np.fmin(ndarray, ndarray)
|
求最大值
求最大值(忽略NaN)
求最小值
求最小值(忽略NaN)
np.copysign(ndarray, ndarray)
|
将参数2中的符号赋予参数1
np.greater(ndarray, ndarray)
np.greater_equal(ndarray, ndarray)
np.less(ndarray, ndarray)
np.less_equal(ndarray, ndarray)
np.equal(ndarray, ndarray)
np.not_equal(ndarray, ndarray)
|
=
<
<=
==
!=
logical_and(ndarray, ndarray)
logical_or(ndarray, ndarray)
logical_xor(ndarray, ndarray)
|
&
|
^
np.dot( ndarray, ndarray) | 计算两个ndarray的矩阵内积
np.ix_([x,y,m,n],...) | 生成一个索引器,用于Fancy indexing(花式索引)
|
文件读写 | 说明
np.save(string, ndarray) | 将ndarray保存到文件名为 [string].npy 的文件中(无压缩)
np.savez(string, ndarray1, ndarray2, ...) |
将所有的ndarray压缩保存到文件名为[string].npy的文件中
np.savetxt(sring, ndarray, fmt, newline='\n') | 将ndarray写入文件,格式为fmt
np.load(string) | 读取文件名string的文件内容并转化为ndarray对象(或字典对象)
np.loadtxt(string, delimiter) | 读取文件名string的文件内容,以delimiter为分隔符转化为ndarray
表2.1.A.2 np常用函数
B NumPy.ndarray函数和属性:
| ndarray.ndim | 获取ndarray的维数 |
|---|---|
| ndarray.shape | 获取ndarray各个维度的长度 |
| ndarray.dtype | 获取ndarray中元素的数据类型 |
| ndarray.T | 简单转置矩阵ndarray |
表2.1.B.1 ndarray属性
| 函数 | 说明 |
|---|---|
| ndarray.astype(dtype) | 转换类型,若转换失败则会出现TypeError |
| ndarray.copy() | 复制一份ndarray(新的内存空间) |
| ndarray.reshape((N,M,...)) | 将ndarray转化为NM...的多维ndarray(非copy) |
| ndarray.transpose((xIndex,yIndex,...)) |
根据维索引xIndex,yIndex...进行矩阵转置,依赖于shape,不能用于一维矩阵(非copy)
ndarray.swapaxes(xIndex,yIndex) | 交换维度(非copy)
|
计算函数 | 说明
ndarray.mean( axis=0 ) | 求平均值
ndarray.sum( axis= 0) | 求和
ndarray.cumsum( axis=0)
ndarray.cumprod( axis=0)
|
累加
累乘
ndarray.std()
ndarray.var()
|
方差
标准差
ndarray.max()
ndarray.min()
|
最大值
最小值
ndarray.argmax()
ndarray.argmin()
|
最大值索引
最小值索引
ndarray.any()
ndarray.all()
|
是否至少有一个True
是否全部为True
ndarray.dot( ndarray)
|
计算矩阵内积
排序函数
|
说明
ndarray.sort(axis=0)
|
排序,返回源数据
表2.1.B.2 ndarray函数
| ndarray[n] | 选取第n+1个元素 |
|---|---|
| ndarray[n:m] | 选取第n+1到第m个元素 |
| ndarray[:] | 选取全部元素 |
| ndarray[n:] | 选取第n+1到最后一个元素 |
| ndarray[:n] | 选取第0到第n个元素 |
ndarray[ bool_ndarray ]
注:bool_ndarray表示bool类型的ndarray
| 选取为true的元素
ndarray[[x,y,m,n]]...
| 选取顺序和序列为x、y、m、n的ndarray
ndarray[n,m]
ndarray[n][m]
| 选取第n+1行第m+1个元素
ndarray[n,m,...]
ndarray[n][m]....
| 选取n行n列....的元素
表2.1.B.3 ndarray索引/切片方式
C NumPy.random函数和属性:
| 函数 | 说明 |
|---|
seed()
seed(int)
seed(ndarray)
| 确定随机数生成种子
permutation(int)
permutation(ndarray)
|
返回一个一维从0~9的序列的随机排列
返回一个序列的随机排列
shuffle(ndarray) | 对一个序列就地随机排列
rand(int)
randint(begin,end,num=1)
|
产生int个均匀分布的样本值
从给定的begin和end随机选取num个整数
randn(N, M, ...) | 生成一个NM...的正态分布(平均值为0,标准差为1)的ndarray
normal(size=(N,M,...)) | 生成一个NM...的正态(高斯)分布的ndarray
beta(ndarray1,ndarray2) | 产生beta分布的样本值,参数必须大于0
chisquare() | 产生卡方分布的样本值
gamma() | 产生gamma分布的样本值
uniform() | 产生在[0,1)中均匀分布的样本值
2.1.C.1 random常用函数
D NumPy.linalg函数和属性:
| 函数 | 说明 |
|---|---|
| det(ndarray) | 计算矩阵列式 |
| eig(ndarray) | 计算方阵的本征值和本征向量 |
inv(ndarray)
pinv(ndarray)
|
计算方阵的逆
计算方阵的Moore-Penrose伪逆
qr(ndarray) | 计算qr分解
svd(ndarray) | 计算奇异值分解svd
solve(ndarray) | 解线性方程组Ax = b,其中A为方阵
lstsq(ndarray) | 计算Ax=b的最小二乘解
2.1.D.1 linalg常用函数
2.Pandas
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas
纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
from pandas import Series, DataFrame
import pandas as pd
A.pandas
| 函数 | 说明 |
|---|
pd.isnull(series)
pd.notnull(series)
|
判断是否为空(NaN)
判断是否不为空(not NaN)
|
|
2.2.A.1 pandas常用函数
B.Series
| Series可以运用ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。 属性 | 说明 |
|---|---|
| values | 获取数组 |
| index | 获取索引 |
| name | values的name |
| index.name | 索引的name |
2.2.B.1 Series常用属性
| 函数 | 说明 |
|---|---|
| Series([x,y,...])Series({'a':x,'b':y,...}, index=param1) | 生成一个Series |
| Series.copy() | 复制一个Series |
Series.reindex([x,y,...], fill_value=NaN)
Series.reindex([x,y,...], method=NaN)
Series.reindex(columns=[x,y,...])
|
重返回一个适应新索引的新对象,将缺失值填充为fill_value
返回适应新索引的新对象,填充方式为method
对列进行重新索引
Series.drop(index) | 丢弃指定项
Series.map(f) | 应用元素级函数
|
排序函数 | 说明
Series.sort_index(ascending=True) | 根据索引返回已排序的新对象
Series.order(ascending=True) | 根据值返回已排序的对象,NaN值在末尾
Series.rank(method='average', ascending=True, axis=0) | 为各组分配一个平均排名
df.argmax()
df.argmin()
|
返回含有最大值的索引位置
返回含有最小值的索引位置
2.2.B.2 Series常用函数
reindex的method选项:
ffill, bfill 向前填充/向后填充
pad, backfill 向前搬运,向后搬运
rank的method选项
'average' 在相等分组中,为各个值分配平均排名
'max','min' 使用整个分组中的最小排名
'first' 按值在原始数据中出现的顺序排名
C.DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。
DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。
为不存在的列赋值会创建新列。
del frame['xxx'] # 删除列
| 属性 | 说明 |
|---|---|
| values | DataFrame的值 |
| index | 行索引 |
| index.name | 行索引的名字 |
| columns | 列索引 |
| columns.name | 列索引的名字 |
| ix | 返回行的DataFrame |
| ix[[x,y,...], [x,y,...]] | 对行重新索引,然后对列重新索引 |
| T | frame行列转置 |
2.2.C.1 DataFrame常用属性
| 函数 | 说明 |
|---|
DataFrame(dict, columns=dict.index, index=[dict.columnnum])
DataFrame(二维ndarray)
DataFrame(由数组、列表或元组组成的字典)
DataFrame(NumPy的结构化/记录数组)
DataFrame(由Series组成的字典)
DataFrame(由字典组成的字典)
DataFrame(字典或Series的列表)
DataFrame(由列表或元组组成的列表)
DataFrame(DataFrame)
DataFrame(NumPy的MaskedArray)
|
构建DataFrame
数据矩阵,还可以传入行标和列标
每个序列会变成DataFrame的一列。所有序列的长度必须相同
类似于“由数组组成的字典”
每个Series会成为一列。如果没有显式制定索引,则各Series的索引会被合并成结果的行索引
各内层字典会成为一列。键会被合并成结果的行索引。
各项将会成为DataFrame的一行。索引的并集会成为DataFrame的列标。
类似于二维ndarray
沿用DataFrame
类似于二维ndarray,但掩码结果会变成NA/缺失值
df.reindex([x,y,...], fill_value=NaN, limit)
df.reindex([x,y,...], method=NaN)
df.reindex([x,y,...], columns=[x,y,...],copy=True)
|
返回一个适应新索引的新对象,将缺失值填充为fill_value,最大填充量为limit
返回适应新索引的新对象,填充方式为method
同时对行和列进行重新索引,默认复制新对象。
df.drop(index, axis=0) | 丢弃指定轴上的指定项。
|
排序函数 | 说明
df.sort_index(axis=0, ascending=True)
df.sort_index(by=[a,b,...])
| 根据索引排序
|
汇总统计函数 | 说明
df.count() | 非NaN的数量
df.describe() | 一次性产生多个汇总统计
df.min()
df.min()
|
最小值
最大值
df.idxmax(axis=0, skipna=True)
df.idxmin(axis=0, skipna=True)
|
返回含有最大值的index的Series
返回含有最小值的index的Series
df.quantile(axis=0) | 计算样本的分位数
df.sum(axis=0, skipna=True, level=NaN)
df.mean(axis=0, skipna=True, level=NaN)
df.median(axis=0, skipna=True, level=NaN)
df.mad(axis=0, skipna=True, level=NaN)
df.var(axis=0, skipna=True, level=NaN)
df.std(axis=0, skipna=True, level=NaN)
df.skew(axis=0, skipna=True, level=NaN)
df.kurt(axis=0, skipna=True, level=NaN)
df.cumsum(axis=0, skipna=True, level=NaN)
df.cummin(axis=0, skipna=True, level=NaN)
df.cummax(axis=0, skipna=True, level=NaN)
df.cumprod(axis=0, skipna=True, level=NaN)
df.diff(axis=0)
df.pct_change(axis=0)
|
返回一个含有求和小计的Series
返回一个含有平均值的Series
返回一个含有算术中位数的Series
返回一个根据平均值计算平均绝对离差的Series
返回一个方差的Series
返回一个标准差的Series
返回样本值的偏度(三阶距)
返回样本值的峰度(四阶距)
返回样本的累计和
返回样本的累计最大值
返回样本的累计最小值
返回样本的累计积
返回样本的一阶差分
返回样本的百分比数变化
|
|
计算函数 | 说明
df.add(df2, fill_value=NaN, axist=1)
df.sub(df2, fill_value=NaN, axist=1)
df.div(df2, fill_value=NaN, axist=1)
df.mul(df2, fill_value=NaN, axist=1)
|
元素级相加,对齐时找不到元素默认用fill_value
元素级相减,对齐时找不到元素默认用fill_value
元素级相除,对齐时找不到元素默认用fill_value
元素级相乘,对齐时找不到元素默认用fill_value
df.apply(f, axis=0) | 将f函数应用到由各行各列所形成的一维数组上
df.applymap(f) | 将f函数应用到各个元素上
df.cumsum(axis=0, skipna=True) | 累加,返回累加后的dataframe
2.2.C.2 Dataframe常用函数
| 索引方式 | 说明 |
|---|---|
| df[val] | 选取DataFrame的单个列或一组列 |
| df.ix[val] | 选取Dataframe的单个行或一组行 |
| df.ix[:,val] | 选取单个列或列子集 |
| df.ix[val1,val2] | 将一个或多个轴匹配到新索引 |
| reindex方法 | 将一个或多个轴匹配到新索引 |
| xs方法 | 根据标签选取单行或者单列,返回一个Series |
| icol、irow方法 | 根据整数位置选取单列或单行,并返回一个Series |
| get_value、set_value | 根据行标签和列标签选取单个值 |
2.2.C.3 Dataframe常用索引方式
运算:
默认情况下,Dataframe和Series之间的算术运算会将Series的索引匹配到的Dataframe的列,沿着列一直向下传播。若索引找不到,则会重新索引产生并集。
D.Index
pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index。
Index对象不可修改,从而在多个数据结构之间安全共享。
| 主要的Index对象 | 说明 |
|---|---|
| Index | 最广泛的Index对象,将轴标签表示为一个由Python对象组成的NumPy数组 |
| Int64Index | 针对整数的特殊Index |
| MultiIndex | “层次化”索引对象,表示单个轴上的多层索引。可以看做由元组组成的数组 |
| DatetimeIndex | 存储纳秒级时间戳(用NumPy的Datetime64类型表示) |
| PeriodIndex | 针对Period数据(时间间隔)的特殊Index |
2.2.D.1 主要的Index属性
| 函数 | 说明 |
|---|---|
| Index([x,y,...]) | 创建索引 |
| append(Index) | 连接另一个Index对象,产生一个新的Index |
| diff(Index) | 计算差集,产生一个新的Index |
| intersection(Index) | 计算交集 |
| union(Index) | 计算并集 |
| isin(Index) | 检查是否存在与参数索引中,返回bool型数组 |
| delete(i) | 删除索引i处元素,得到新的Index |
| drop(str) | 删除传入的值,得到新Index |
| insert(i,str) | 将元素插入到索引i处,得到新Index |
| is_monotonic() | 当各元素大于前一个元素时,返回true |
| is_unique() | 当Index没有重复值时,返回true |
| unique() | 计算Index中唯一值的数组 |


浙公网安备 33010602011771号