数据分析

1.nmpy的索引和切片以及花式索引和布尔型索引

2.通用函数

3.pandas的学习

 

一.nmpy的索引和切片以及花式索引和布尔型索引

1.索引

# 将一维数组变成二维数组
arr = np.arange(30).reshape(5,6) # 后面的参数6可以改为-1,相当于占位符,系统可以自动帮忙算几列
arr

# 将二维变一维
arr.reshape(30)

# 索引使用方法
array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])
现在有这样一组数据,需求:找到20
列表写法:arr[3][2]
数组写法:arr[3,2]  # 中间通过逗号隔开就可以了
3代表的就是行号,2代表的就是列

 

2.切片

arr数组
array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])
arr[1:4,1:4]   # 切片方式
结论:1:4就是行号先定位切那几行,后面的1:4是列号,定位切那几列
执行结果: array([[ 7, 8, 9], [13, 14, 15], [19, 20, 21]])

 

3.花式索引

 

res = np.array([1,2,3,4,5,6,7,8,9,10])
res
结果:array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

#### 获取 值是 2 4 7 9 的四个值
res[[1,3,6,8]]   #### 内层括号中的数据是 想要获取的值的索引下标
结果:array([2, 4, 7, 9])

一维数组改成二维数组
res.reshape(2,5)  #### reshape 改变数组的维度和形状
res

二维数组在改成一维数组
s = res.reshape(2,5)  #### reshape 改变数组的维度和形状
s.reshape(10)

 

4.布尔型索引

给一个数组,选出数组中大于5的数
li = [random.randint(1,10) for _ in range(30)] a = np.array(li) a[a>5] 执行结果: array([10, 7, 7, 9, 7, 9, 10, 9, 6, 8, 7, 6]) ---------------------------------------------- 原理: a>5会对a中的每一个元素进行判断,返回一个布尔数组 a > 5的运行结果: array([False, True, False, True, True, False, True, False, False, False, False, False, False, False, False, True, False, True, False, False, True, True, True, True, True, False, False, False, False, True]) ---------------------------------------------- 布尔型索引:将同样大小的布尔数组传进索引,会返回一个有True对应位置的元素的数组


注意:二维数组也是可以的
res = np.array([[1,2,3,4],[5,6,7,8]])
res
结果:array([[1,2,3,4],
      [5,6,7,8]])

res[res > 5]

array([6, 7, 8])

 

二.通用函数

什么是函数:能对数组中所有元素同时进行运算的函数就是通用函数

 

常见通用函数:

能够接受一个数组的叫做一元函数,接受俩个数组的叫做二元函数,结果返回的也是一个数组。

 



  • 一元函数:
函数功能 
abs、fabs 分别是计算整数和浮点数的绝对值  
sqrt 计算各元素的平方根  
square 计算各元素的平方  
exp 计算各元素的指数e**x  
log 计算自然对数  
sign 计算各元素的正负号  
ceil 计算各元素的ceiling值  
floor 计算各元素floor值,即小于等于该值的最大整数  
rint 计算各元素的值四舍五入到最接近的整数,保留dtype  
modf 将数组的小数部分和整数部分以两个独立数组的形式返回,与Python的divmod方法类似  
isnan 计算各元素的正负号  
isinf 表示那些元素是无穷的布尔型数组  
cos,sin,tan 普通型和双曲型三角函数

 

  • 二元函数:
函数功能 
add 将数组中对应的元素相加  
subtract 从第一个数组中减去第二个数组中的元素  
multiply 数组元素相乘  
divide、floor_divide 除法或向下圆整除法(舍弃余数)  
power 对第一个数组中的元素A,根据第二个数组中的相应元素B计算A**B  
maximum,fmax 计算最大值,fmax忽略NAN  
miximum,fmix 计算最小值,fmin忽略NAN  
mod 元素的求模计算(除法的余数)

 

补充内容:浮点数特殊值

浮点数:float

浮点数有俩个特殊值:

1、nan(Not a Number):不等于任何浮点数(nan != nan)

2、inf(infinity):比任何浮点数都大 

  • Numpy中创建特殊值:np.nan、np.inf
  • 数据分析中,nan常被用作表示数据缺失值

 

 

3.1、数学统计方法

函数功能 
sum 求和  
cumsum 求前缀和  
mean 求平均数  
std 求标准差  
var 求方差  
min 求最小值  
max 求最大值  
argmin 求最小值索引  
argmax 求最大值索引  

3.2、随机数

随机数生成函数在np.random的子包当中

常用函数

函数功能 
rand 给定形状产生随机数组(0到1之间的数)  
randint 给定形状产生随机整数  
chocie 给定形状产生随机选择  
shuffle 与random.shuffle相同  
uniform 给定形状产生随机数组  

 

 

三.pandas的学习

 详细见:https://www.cnblogs.com/xiaoyuanqujing/articles/11646477.html

 什么是pandas:

pandas是一个强大的Python数据分析的工具包,它是基于Numpy构建的,正因pandas的出现,让Python语言也成为使用最广泛而且强大的数据分析环境之一。

 

pandas的主要功能:

1.具备对其功能的数据结构DataFrame,Series
2.集成时间序列功能
3.提供丰富的数学运算和操作
4.灵活处理缺失数据

安装方法: pip install pandas
引用方法:
import pandas as pd

 

介绍了俩个数据结构:

1.Series

Series是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。

创建的方法:一共有四种

第一种:
pd.Series([4,5,6,7,8])
执行结果:
0    4
1    5
2    6
3    7
4    8
dtype: int64
# 将数组索引以及数组的值打印出来,索引在左,值在右,由于没有为数据指定索引,于是会自动创建一个0到N-1(N为数据的长度)的整数型索引,取值的时候可以通过索引取值,跟之前学过的数组和列表一样
-----------------------------------------------
第二种:
pd.Series([4,5,6,7,8],index=['a','b','c','d','e'])
执行结果:
a    4
b    5
c    6
d    7
e    8
dtype: int64
# 自定义索引,index是一个索引列表,里面包含的是字符串,依然可以通过默认索引取值。
-----------------------------------------------
第三种:
pd.Series({"a":1,"b":2})
执行结果:
a    1
b    2
dtype: int64
# 指定索引
-----------------------------------------------
第四种:
pd.Series(0,index=['a','b','c'])
执行结果:
a    0
b    0
c    0
dtype: int64
# 创建一个值都是0的数组

对于Series,其实我们可以认为它是一个长度固定且有序的字典,因为它的索引和数据是按位置进行匹配的,像我们会使用字典的上下文,就肯定也会使用Series

 

 

缺失数据:

  • dropna() # 过滤掉值为NaN的行
  • fill() # 填充缺失数据
  • isnull() # 返回布尔数组,缺失值对应为True
  • notnull() # 返回布尔数组,缺失值对应为False

 

 

 

Series

Series特性

从ndarray创建Series:Series(arr)
与标量(数字):sr * 2
两个Series运算
通用函数:np.ads(sr)
布尔值过滤:sr[sr>0]
统计函数:mean()、sum()、cumsum()
支持字典的特性:

从字典创建Series:Series(dic),
In运算:'a'in sr、for x in sr
键索引:sr['a'],sr[['a','b','d']]
键切片:sr['a':'c']
其他函数:get('a',default=0)等
整数索引

pandas当中的整数索引对象可能会让初次接触它的人很懵逼,接下来通过代码演示:

sr = pd.Series(np.arange(10))
sr1 = sr[3:].copy()
sr1
运行结果:
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32
# 到这里会发现很正常,一点问题都没有,可是当使用整数索引取值的时候就会出现问题了。因为在pandas当中使用整数索引取值是优先以标签解释的,而不是下标
sr1[1]
解决方法:

loc属性 # 以标签解释
iloc属性 # 以下标解释
sr1.iloc[1]  # 以下标解释

sr1.loc[3]  # 以标签解释
Series数据对齐

pandas在运算时,会按索引进行对齐然后计算。如果存在不同的索引,则结果的索引是两个操作数索引的并集。

sr1 = pd.Series([12,23,34], index=['c','a','d'])
sr2 = pd.Series([11,20,10], index=['d','c','a',])
sr1 + sr2
运行结果:
a    33
c    32
d    45
dtype: int64
# 可以通过这种索引对齐直接将两个Series对象进行运算
sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
sr1 + sr3
运行结果:
a    33.0
b     NaN
c    32.0
d    45.0
dtype: float64
# sr1 和 sr3的索引不一致,所以最终的运行会发现b索引对应的值无法运算,就返回了NaN,一个缺失值
将两个Series对象相加时将缺失值设为0:

sr1 = pd.Series([12,23,34], index=['c','a','d'])
sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
sr1.add(sr3,fill_value=0)
运行结果:
a    33.0
b    14.0
c    32.0
d    45.0
dtype: float64
# 将缺失值设为0,所以最后算出来b索引对应的结果为14
灵活的算术方法:add,sub,div,mul

 

2.DataFrame(主要用这个)

DataFrame是一个表格型的数据结构,相当于是一个二维数组,含有一组有序的列。他可以被看做是由Series组成的字典,并且共用一个索引。

 

创建方式:

创建一个DataFrame数组可以有多种方式,其中最为常用的方式就是利用包含等长度列表或Numpy数组的字典来形成DataFrame:

第一种:
pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
# 产生的DataFrame会自动为Series分配所索引,并且列会按照排序的顺序排列
运行结果:
    one two
0   1   4
1   2   3
2   3   2
3   4   1

> 指定列
可以通过columns参数指定顺序排列
data = pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
pd.DataFrame(data,columns=['one','two'])

# 打印结果会按照columns参数指定顺序


第二种:
pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3],index=['b','a','c'])})
运行结果:
   one  two
a   1   2
b   2   1
c   3   3

以上创建方法简单了解就可以,因为在实际应用当中更多是读数据,不需要自己手动创建

查看数据

常用属性和方法:

  • index 获取行索引
  • columns 获取列索引
  • T 转置
  • columns 获取列索引
  • values 获取值索引
  • describe 获取快速统计
 one    two
a   1   2
b   2   1
c   3   3
# 这样一个数组df
-----------------------------------------------------------------------------
df.index
运行结果:
Index(['a', 'b', 'c'], dtype='object')
----------------------------------------------------------------------------
df.columns
运行结果:
Index(['one', 'two'], dtype='object')
--------------------------------------------------------------------------
df.T
运行结果:
    a   b   c
one 1   2   3
two 2   1   3
-------------------------------------------------------------------------
df.values
运行结果:
array([[1, 2],
       [2, 1],
       [3, 3]], dtype=int64)
------------------------------------------------------------------------
df.describe()
运行结果:
one two
count   3.0 3.0
mean    2.0 2.0
std 1.0 1.0
min 1.0 1.0
25% 1.5 1.5
50% 2.0 2.0
75% 2.5 2.5
max 3.0 3.0

 

索引和切片

  • DataFrame有行索引和列索引。
  • DataFrame同样可以通过标签和位置两种方法进行索引和切片。

DataFrame使用索引切片:

  • 方法1:两个中括号,先取列再取行。 df['A'][0]
  • 方法2(推荐):使用loc/iloc属性,一个中括号,逗号隔开,先取行再取列。
    • loc属性:解释为标签
    • iloc属性:解释为下标
  • 向DataFrame对象中写入值时只使用方法2
  • 行/列索引部分可以是常规索引、切片、布尔值索引、花式索引任意搭配。(注意:两部分都是花式索引时结果可能与预料的不同)

 

4、时间对象处理

时间序列类型

  • 时间戳:特定时刻
  • 固定时期:如2019年1月
  • 时间间隔:起始时间-结束时间

Python库:datatime

  • date、time、datetime、timedelta
  • dt.strftime()
  • strptime()

灵活处理时间对象:dateutil包

  • dateutil.parser.parse()
import dateutil
dateutil.parser.parse("2019 Jan 2nd")  # 这中间的时间格式一定要是英文格式

运行结果:
datetime.datetime(2019, 1, 2, 0, 0)

成组处理时间对象:pandas

  • pd.to_datetime(['2018-01-01', '2019-02-02'])
pd.to_datetime(['2018-03-01','2019 Feb 3','08/12-/019'])

运行结果:
DatetimeIndex(['2018-03-01', '2019-02-03', '2019-08-12'], dtype='datetime64[ns]', freq=None)  # 产生一个DatetimeIndex对象

# 转换时间索引
ind = pd.to_datetime(['2018-03-01','2019 Feb 3','08/12-/019'])
sr = pd.Series([1,2,3],index=ind)
sr
运行结果:
2018-03-01    1
2019-02-03    2
2019-08-12    3
dtype: int64
通过以上方式就可以将索引转换为时间

补充:
pd.to_datetime(['2018-03-01','2019 Feb 3','08/12-/019']).to_pydatetime()
运行结果:
array([datetime.datetime(2018, 3, 1, 0, 0),
       datetime.datetime(2019, 2, 3, 0, 0),
       datetime.datetime(2019, 8, 12, 0, 0)], dtype=object)
# 通过to_pydatetime()方法将其转换为array数组

 

产生时间对象数组:data_range

  • start 开始时间
  • end 结束时间
  • periods 时间长度
  • freq 时间频率,默认为'D',可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…
pd.date_range("2019-1-1","2019-2-2")
运行结果:
DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06', '2019-01-07', '2019-01-08',
               '2019-01-09', '2019-01-10', '2019-01-11', '2019-01-12',
               '2019-01-13', '2019-01-14', '2019-01-15', '2019-01-16',
               '2019-01-17', '2019-01-18', '2019-01-19', '2019-01-20',
               '2019-01-21', '2019-01-22', '2019-01-23', '2019-01-24',
               '2019-01-25', '2019-01-26', '2019-01-27', '2019-01-28',
               '2019-01-29', '2019-01-30', '2019-01-31', '2019-02-01',
               '2019-02-02'],
              dtype='datetime64[ns]', freq='D')

 

时间序列

时间序列就是以时间对象为索引的Series或DataFrame。datetime对象作为索引时是存储在DatetimeIndex对象中的。

# 转换时间索引

dt = pd.date_range("2019-01-01","2019-02-02")
a = pd.DataFrame({"num":pd.Series(random.randint(-100,100) for _ in range(30)),"date":dt})

# 先生成一个带有时间数据的DataFrame数组

a.index = pd.to_datetime(a["date"])
# 再通过index修改索引

 

特殊功能:

  • 传入“年”或“年月”作为切片方式
  • 传入日期范围作为切片方式
  • 丰富的函数支持:resample(), strftime(), ……
  • 批量转换为datetime对象:to_pydatetime()
a.resample("3D").mean()  # 计算每三天的均值
a.resample("3D").sum()  #  计算每三天的和
...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

posted @ 2019-12-03 21:28  ZHANGYUZY  阅读(199)  评论(0编辑  收藏  举报