数据分析之numpy

Numpy的使用

一：Numpy数组的创建

1）使用np来生成一个有序的一维数组

ls1=np.arange(10)

ls1

输出：array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

2）通过数组创建np数组

arr1=np.array([1,10,5,2,30,20])

arr1

输出：array([ 1, 10, 5, 2, 30, 20])

通过元组创建np数组
arr3=np.array(((1,1,1,1,2),(2,2,2,2,2)))

arr3

输出：array([[1, 1, 1, 1, 2], [2, 2, 2, 2, 2]])

4)创建空数组

np.empty(3)
输出：array([0., 0., 0.])
二：二维及多维数组的创建

二维数组的创建

1)元组套元组

arr3=np.array(((1,1,1,1,2),(2,2,2,2,2)))

arr3

输出：array([[1, 1, 1, 1, 2], [2, 2, 2, 2, 2]])

创建全一数组

np.ones(3)
输出：array([1., 1., 1.])
创建全零数组：

np.zeros(3)

输出：array([0., 0., 0.])
创建元素全为一的3*4的二维数组

np.ones([3,4]

输出：
array([[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]])
创建元素全为零的3*4全零数组

np.zeros([3,4])

输出：array([[0., 0., 0., 0.],
[0., 0., 0., 0.],
[0., 0., 0., 0.]])
查看数组的形状：

arr.shape
查看数组的数据类型：

arr.dtype
将多维数组展开：

例：arr5=np.empty([3,4])

arr5

输出：array([[1.03156124e-311, 3.16202013e-322, 0.00000000e+000,
0.00000000e+000],

[0.00000000e+000, 9.68744731e-071, 1.69184165e-052,
8.77838469e-071],
[4.98778453e-037, 6.40440036e+170, 1.33532526e+165,
1.61997615e-051]])

对arr5数组展开，即降维

arr6=arr5.ravel()  #降维
arr6

输出：
array([1.03156124e-311, 3.16202013e-322, 0.00000000e+000, 0.00000000e+000,

0.00000000e+000, 9.68744731e-071, 1.69184165e-052, 8.77838469e-071,
4.98778453e-037, 6.40440036e+170, 1.33532526e+165, 1.61997615e-051])
使用flatten函数可以实现相同的效果

arr7=arr5.flatten()

arr7

输出：

array([1.03156124e-311, 3.16202013e-322, 0.00000000e+000, 0.00000000e+000,
0.00000000e+000, 9.68744731e-071, 1.69184165e-052, 8.77838469e-071,
4.98778453e-037, 6.40440036e+170, 1.33532526e+165, 1.61997615e-051])
返回数组的维数：

arr.ndim
返回数组中元素的个数

arr.size
返回数组转置的结果

arr.T

数组的级联

arr8=np.zeros([3,4])
arr9=np.ones([3,4])
水平级联

水平级联的行数必须相同

np.hstack((arr8,arr9))

输出：
    
    array([[0., 0., 0., 0., 1., 1., 1., 1.],

[0., 0., 0., 0., 1., 1., 1., 1.],
[0., 0., 0., 0., 1., 1., 1., 1.]])
纵向级联

纵向级联的列数必须相同

np.vstack((arr8,arr9))

输出：
    
    array([[0., 0., 0., 0.],

[0., 0., 0., 0.],
[0., 0., 0., 0.],
[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]])

水平连接：
与水平级联效果相同
np.column_stack((arr8,arr9))
输出：
array([[0., 0., 0., 0., 1., 1., 1., 1.],
[0., 0., 0., 0., 1., 1., 1., 1.],
[0., 0., 0., 0., 1., 1., 1., 1.]])

纵向连接：
    纵向连接与纵向级联的效果相同
    arr11=np.row_stack((arr8,arr9))
    arr11
    输出：
        array([[0., 0., 0., 0.],
               [0., 0., 0., 0.],
               [0., 0., 0., 0.],
               [1., 1., 1., 1.],
               [1., 1., 1., 1.],
               [1., 1., 1., 1.]])

形状重置：

arr12=arr11.reshape(4,6)
arr12

输出：
array([[0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0.],
[1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1.]])

使用reshape对形状的改变并不会影响原数组

如果想要改变原有数组的形状，可以使用resize()函数

arr11.resize(4,6)
arr11
输出：
array([[0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0.],
[1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1.]])
将ndArray数组转为list

data=arr11.tolist()

type(data)

输出：
list
data
输出:
[[0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
[1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
[1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
将list转为ndArray:

data1=np.array(data)

type(data1)
输出：
numpy.ndarray
data1
输出:
array([[0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0.],
[1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1.]])
数据类型转换：

arr11.astype(int)
输出：
array([[0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0],
[1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1]])
数组元素的获取：

data2=np.array(np.arange(10))
data2
输出：
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
以下标方式获取元素：
data2[3]
输出：
3
获取前三个元素
data2[:3]
输出：
array([0, 1, 2])
获取第四个元素后的所有元素
data2[3:]
输出：
array([3, 4, 5, 6, 7, 8, 9])

获取最后两位：
    data2[-2:]
    输出：
        array([8, 9])

步长为2取数
    data2[::2]
    输出：
        array([0, 2, 4, 6, 8])
建立一个3*4的数组
arr8=np.array(np.arange(12)).reshape(3,4)
arr8
输出：
    array([[ 0,  1,  2,  3],
           [ 4,  5,  6,  7],
           [ 8,  9, 10, 11]])
#取前两行前两列的数据
arr8[:2,:2]
输出：
    array([[0, 1],
            [4, 5]])

获取第一行的数据
arr8[0]
输出：
    array([0, 1, 2, 3])
获取前两行前两列的数据
arr8[:2,:2]
输出：
    array([[0, 1],
        [4, 5]])
        
获取第一行与第三行
arr8[[0,2]]
输出：
    array([[ 0,  1,  2,  3],
            [ 8,  9, 10, 11]])


获取所有行的第一列
    arr8[:,0]
    输出：
        array([0, 4, 8])
获取所有行最后两列
    arr8[:,-2:]
    输出：
        array([[ 2,  3],
               [ 6,  7],
               [10, 11]])
               
               
获取所有行的第一列和第三列的数据

    arr8[:,[0,2]]
    输出：
        array([[ 0,  2],
               [ 4,  6],
               [ 8, 10]])
               
获取第二行第三列的数据    
    
    arr8[1,2]
    
    输出：6

布尔索引：

log=np.array([True,False,False,True,True,False])
arr9=np.array(np.arange(24)).reshape(6,4)
arr9
输出：
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11],
[12, 13, 14, 15],
[16, 17, 18, 19],
[20, 21, 22, 23]])
获取所有为true的对应的行

arr9[log]

输出：
array([[ 0, 1, 2, 3],
[12, 13, 14, 15],
[16, 17, 18, 19]])
返回所有为False对应的行

arr9[~log]

输出：
array([[ 4, 5, 6, 7],
[ 8, 9, 10, 11],
[20, 21, 22, 23]])

案例：
生成一个包含有七个元素的一维数组
area=np.array(['A','B','A','C','A','B','D'])
area
输出：
array(['A', 'B', 'A', 'C', 'A', 'B', 'D'], dtype='<U1')
生成一个7*3的二维数组

observes=np.array(np.arange(21)).reshape(7,3)
observes
输出：
array([[ 0, 1, 2],
[ 3, 4, 5],
[ 6, 7, 8],
[ 9, 10, 11],
[12, 13, 14],
[15, 16, 17],
[18, 19, 20]])
在area中，A出现的索引位置为0,2,4，通过A的索引获取observes对应索引行的数据:

observes[area=='A']
输出：
array([[ 0, 1, 2],
[ 6, 7, 8],
[12, 13, 14]])
通过c在area中的索引位置来获取observes对应行的数据

observes[area=='C']

    输出：
        array([[ 9, 10, 11]])

通过a和d在area中的索引位置来获取observes对应行的数据

observes[(area'A') |(area'D')]
输出：
array([[ 0, 1, 2],
[ 6, 7, 8],
[12, 13, 14],
[18, 19, 20]])

返回A区域的所有行，且只获取第1列与第3列数据

observes[area=='A'][:,[0,2]]
输出：
array([[ 0, 2],
[ 6, 8],
[12, 14]])
花式索引：

实际上就是将数组作为索引将原数组的元素提取出来

arr10=np.arange(1,29).reshape(7,4)
arr10
输出：
    array([[ 1,  2,  3,  4],
           [ 5,  6,  7,  8],
           [ 9, 10, 11, 12],
           [13, 14, 15, 16],
           [17, 18, 19, 20],
           [21, 22, 23, 24],
           [25, 26, 27, 28]])

将第二行，第四行，第六行，第七行数据返回
arr10[1,3,5,6]
输出：
array([[ 5, 6, 7, 8],
[13, 14, 15, 16],
[21, 22, 23, 24],
[25, 26, 27, 28]])
返回第二行第三行对应的第二列与第三列：

arr10[[1,2]][:,[1,2]]
输出：
array([[ 6, 7],
[10, 11]])
如果想使用比较简单的方式返回指定行以列的二维数组的话，可以使用ix_()函数

返回第一行後三行，第四行的第一列第四列与第二列

    arr10[np.ix_([0,2,3],[0,3,2])]
    
    输出：
        array([[ 1,  4,  3],
               [ 9, 12, 11],
               [13, 16, 15]])

统计函数与线性代数运算

统计运算中常见的聚合函数有：最小值、最大值、中位数、均值、方差、标准差等。首先来看看数组元素级别的计算：

 arr11=5-np.arange(1,13).reshape(4,3)
 arr11
 
 输出：
    array([[ 4,  3,  2],
           [ 1,  0, -1],
           [-2, -3, -4],
           [-5, -6, -7]])
           
arr12=np.random.randint(1,10,size=12).reshape(4,3)
arr12
输出：
    array([[9, 7, 2],
           [1, 1, 8],
           [7, 8, 8],
           [2, 8, 9]])
           
arr13=arr11**2
arr13
输出：
    array([[4., 3., 2.],
           [1., 0., 1.],
           [2., 3., 4.],
           [5., 6., 7.]])

#计算arr13中每个元素的平方根
np.sqrt(arr13)
输出：
    array([[4., 3., 2.],
           [1., 0., 1.],
           [2., 3., 4.],
           [5., 6., 7.]])

计算arr13中每个元素的指数值

    np.exp(arr13)
    
    输出：
        array([[8.88611052e+06, 8.10308393e+03, 5.45981500e+01],
               [2.71828183e+00, 1.00000000e+00, 2.71828183e+00],
               [5.45981500e+01, 8.10308393e+03, 8.88611052e+06],
               [7.20048993e+10, 4.31123155e+15, 1.90734657e+21]])

计算arr13中每个元素的自然对数值
np.log(arr13)

输出：
      array([[2.77258872, 2.19722458, 1.38629436],
       [0.        ,       -inf, 0.        ],
       [1.38629436, 2.19722458, 2.77258872],
       [3.21887582, 3.58351894, 3.8918203 ]])

计算每个元素的绝对值

np.abs(arr13)

整除

arr11//2

输出：
    array([[ 2,  1,  1],
           [ 0,  0, -1],
           [-1, -2, -2],
           [-3, -3, -4]], dtype=int32)

取余数

arr11%3
输出：
    array([[1, 0, 2],
           [1, 0, 2],
           [1, 0, 2],
           [1, 0, 2]], dtype=int32)

统计运算函数

计算所有元素之和
np.sum(arr11)
输出：
-18
对每一列求和

np.sum(arr11,axis=0)

输出：
    array([ -2,  -6, -10])

形状相同的数组间元素操作

arr11+arr12
输出：
array([[ 6, 9, 4],
[ 7, 5, 7],
[ 1, 6, 3],
[ 2, 0, -4]])

arr11*arr12

输出：
array([[ 8, 18, 4],
[ 6, 0, -8],
[ -6, -27, -28],
[-35, -36, -21]])

整除

arr11//arr12
输出：
    array([[ 2,  0,  1],
           [ 0,  0, -1],
           [-1, -1, -1],
           [-1, -1, -3]], dtype=int32)

除arr11/arr12

arr11/arr12

输出：    
    array([[ 2.        ,  0.5       ,  1.        ],
   [ 0.16666667,  0.        , -0.125     ],
   [-0.66666667, -0.33333333, -0.57142857],
   [-0.71428571, -1.        , -2.33333333]])

取余

arr11%arr12

输出：
    array([[0, 3, 0],
           [1, 0, 7],
           [1, 6, 3],
           [2, 0, 2]], dtype=int32)

对所有元素求和
np.sum(arr11)

输出：
    -18

对每一列求和

np.sum(arr11,axis=0)
输出：
array([ -2, -6, -10])
对每一行求和

np.sum(arr11,axis=1)
输出：
array([ 9, 0, -9, -18])
求每一列的累积和，并返回二维数组

np.cumsum(arr11,axis=0)
输出：
array([[ 4, 3, 2],
[ 5, 3, 1],
[ 3, 0, -3],
[ -2, -6, -10]], dtype=int32)
计算每一列的累计积

np.cumprod(arr11,axis=1)
输出：
array([[ 4, 12, 24],
[ 1, 0, 0],
[ -2, 6, -24],
[ -5, 30, -210]], dtype=int32)
计算所有元素中的最小值

np.min(arr11)

输出：

-7

计算所有元素中的最大值
np.max(arr11)

输出：
    4

计算每一列的最大值

np.max(arr11,axis=0)

输出：
array([4, 3, 2])
计算每一行的最大值

np.max(arr11,axis=1)
输出：
array([ 4, 1, -2, -5])
计算所有元素的平均值

np.mean(arr11)
计算每一列的均值

np.mean(arr11,axis=0)
计算每一行的均值

np.mean(arr11,axis=1)
计算所有元素的中位数

np.median(arr11)
计算所有元素方差

np.var(arr11)
np.where

np.where(condition, x, y)

满足条件(condition)，输出x，不满足输出y。
arr11
输出：
array([[ 4, 3, 2],
[ 1, 0, -1],
[-2, -3, -4],
[-5, -6, -7]])
np.where(arr11<0,'小于零','大于零')
输出：
array([['大于零', '大于零', '大于零'],
['大于零', '大于零', '小于零'],
['小于零', '小于零', '小于零'],
['小于零', '小于零', '小于零']], dtype='<U3')
np.where(condition)：

只有条件 (condition)，没有x和y，则输出满足条件 (即非0) 元素的坐标 (等价于numpy.nonzero)。这里的坐标以tuple的形式给出， #通常原数组有多少维，输出的tuple中就包含几个数组，分别对应符合条件元素的各维坐标。

a=np.array([2,4,6,8,10])
返回a中大于5的元素索引
np.where(a>5)
输出：
(array([2, 3, 4], dtype=int64),)
返回a中大于5的元素
a[np.where(a>5)]
输出：
array([ 6, 8, 10])
其它函数：

np.unique( )的用法该函数是去除数组中的重复数字，并进行排序之后输出。
np.unique([1,1,2,3,4])

输出：
array([1, 2, 3, 4])
intersect1d(x,y)：计算x和y的公共元素，即交集

x=np.array([1,2,3,4,5]) y=np.array([4,5,6,7,8]) 取x,y的交集 np.intersect1d(x,y)

输出：array([4, 5])
union1d(x,y):计算x和y的并集

np.union1d(x,y)
输出：
array([1, 2, 3, 4, 5, 6, 7, 8])
setdiff1d(x,y):计算x和y的差集，即元素在x中，不在y中

np.setdiff1d(x,y)
输出：
array([1, 2, 3])
setxor1d(x,y):计算集合的对称差，即存在于一个数组中，但不同时存在于两个数组中

np.setxor1d(x,y)
输出：
array([1, 2, 3, 6, 7, 8])
in1d(x,y):判断x的元素是否包含于y中

np.inld(x,y)
输出：
array([False, False, False, True, True])
找出x在y中的元素

x[np.inld(x,y)]
输出：
array([4, 5])

posted @ 2019-10-12 17:40 雪纷飞阅读(243) 评论(0) 收藏举报

刷新页面返回顶部

icefox

数据分析之numpy

二维数组的创建

返回A区域的所有行，且只获取第1列与第3列数据

整除

取余数

整除

取余

公告