数据分析------数据处理（1）

1、数据导入

　　数据存在的形式多种多样，如文件有 csv、Excel、txt 格式，数据库有 MySQL、Access、SQL Server 等形式。

1.1 导入 txt 文件

　　read_table 函数，导入 txt 文件，格式如下：

read_table(file, names=[列名1,列名2,...], spe = "", ...)

　　其中，file 为文件路径与文件名；

　　　　　names 为列名，默认为文件中的第一行作为列名；

　　　　　sep 为分隔符，默认为空。

　　注意：（1）txt 文本文件要保存成 UTF-8 格式才不会报错；

　　　　　（2）查看数据框 df 前 n 项数据使用 df.head(n) ；后 m 项数据用 df.tail(m) 。默认均是 5 项数据。

1.2 导入 csv 文件

　　read_csv 函数，导入 csv 文件，格式如下：

read_csv(file, names=[列名1,列名2,...], spe = "", ...)

　　其中，file 为文件路径与文件名；

　　　　　names 为列名，默认为文件中的第一行作为列名；

　　　　　sep 为分隔符，默认为空，表示默认导入为第一列。

1.3 导入 Excel 文件

　　read_excel 函数，导入 Excel 文件，格式如下：

read_excel (file, sheetname, header = 0)

　　其中，file 为文件路径和文件名；

　　　　　sheetname 为 sheet 的名称，如 sheet1 ；

　　　　　header为列名，默认为 0（只接收布尔型数据 0 和 1），一般以文件的第一行作为列名。

　　注意：（1）header 取 0 和 1 的差别，取 0 表示以文件第一行作为表头显示，取 1 表示把文件第一行丢弃，不作为表头显示。有时可以跳过首行或者读取多个表；

　　　　　（2）sheetname 可以指定为读取几个 sheet ，sheet 数目从 0 开始，如 sheetname=[0,2]，则代表读取第 1 页和第 3 页的 sheet；skiprows=[0] 代表读取时跳过第 1 行。

2、数据导出

2.1 导出 csv 文件

　　to_csv函数,，导出csv文件，其格式如下：

to_csv (file _path, sep=",", index=TRUE, header=TRUE)

　　其中，file_path为文件路径；

　　　　　sep为分隔符，默认是逗号；

　　　　　index表示是否导出行序号，默认是TRUE，导出行序号；

　　　　　header表示是否导出列名，默认是TRUE，导出列名。

2.2 导出 Excel 文件

　　to_excel 函数，导出 Excel 文件，其格式如下：

to_excel (file _path,  index=TRUE, header=TRUE)

　　其中，file_path为文件路径；

　　　　　index表示是否导出行序号，默认是TRUE，导出行序号；

　　　　　header表示是否导出列名，默认是TRUE，导出列名。

3、数据清洗

　　数据处理的主要内容包括数据清洗、数据抽取、数据交换和数据计算等。

　　数据清洗是数据价值链中最为关键的步骤，数据清洗就是处理缺失数据以及清除无意义的信息，如删除原始数据中的无关数据、重复数据等。

3.1 重复值的处理

　　在Pandas模块中去掉重复的数据，步骤如下：

　　（1）利用 DataFrame 中的 duplicated 方法，返回一个布尔型的 Series，显示是否有重复行，没有重复的行显示为 FALSE，有重复的行则从第二行起均显示为 TRUE；

　　（2）再利用 DataFrame 中的 drop_duplicates 方法返回一个移除了重复行的 DataFrame。

　　duplicated 方法如下：

duplicated(self, subset=None, keep='first')

　　其中，subset 用于识别重复的列标签或列标签序列，默认所有列标签；

　　　　　keep＝ 'fist' 表示除了第一次出现外，其余相同的数据被标记为重复；

　　　　　keep = 'last' 表示除了最后一次出现外，其余相同的数据被标记为重复；　

　　　　　keep＝ False表示所有相同的数据都被标记为重复。

　　如果 duplicated 方法和 drop_ duplicates 方法中没有设置参数，则这两个方法默认判断全部列；如果在这两个方法中加入了指定的属性名（或者称为列名），例如 fame.drop_ dup licates(['state'])，则指定部分列（ state列）进行重复项的判断。

　　drop_ duplicates 方法用于把数据结构中行相同的数据去除（保留其中的一行）。

　　代码示例如下：

In [1]: from pandas import DataFrame
           from pandas import Series
           df = DataFrame(({'age': Series([26,85,64,85,85]),'name': Series(['Ben','John','Jerry",'John','John'])})
           df
Out[1]:
     age   name
0   26     Ben
1   85     John
2   64     Jerry
3   85     John
4   85     John

In [2]: df.duplicated()
Out[2]:
0   False
1   False
2   False
3   True
4   True
dtype: bool

In[3]: df.duplicated('name')
out[3]:
0   False
1   False
2   False
3   True
4   True
dtype: bool

In[4]: df.drop_duplicates('age')
out[4]:
     age   name
0   26     Ben    
1   85     John
2   64     Jerry

3.2 缺失值处理

　　缺失值的处理包括以下两个步骤：

　　（1）缺失数据的识别

　　Pandas 使用浮点值 NaN 表示浮点和非浮点数组里的缺失数据，并使用 .isnull 和 .notnull 函数来判断缺失情况。

In [1]: from pandas import DataFrame
           from pandas import read_excel
           df = read_excel(r'c:\Users\test\test.xisx', sheetname = 'Sheet2')
           df
Out[1]:
         学号       姓名   英语     数分     高代    解几
0    2308024241    成龙    76      40.0    23.0    60
1    2308024244    周怡    66      47.0    47.0    44
2    2308024251    张波    85      NaN     45.0    60
3    2308024249    朱浩    65      72.0    62.0    71
4    2308024219    封印    73      61.0    47.0    46
5    2308024201    退培    60      71.0    76.0    71
6    2308024347    李华    67      61.0    65.0    78
7    2308024307    陈田    76      69.0    NaN     69
8    2308024326    余皓    66      65.0    61.0    71
9    2308024219    封印    73      61.0    47.0    46      

In[2]: df.isnull()
Out[2]:
           学号     姓名      英语       数分       高代      解几
0        False    False     False     False     False     False
1        False    False     False     False     False     False
2        False    False     False     True      False     False
3        False    False     False     False     False     False
4        False    False     False     False     False     False
5        False    False     False     False     False     False
6        False    False     False     False     False     False
7        False    False     False     False     True      False
8        False    False     False     False     False     False
9        False    False     False     False     False     False

In[3]: df.notnull()
Out[3]:
          学号     姓名      英语      数分     高代     解几
0        True    True     True     True     True    True
1        True    True     True     True     True    True
2        True    True     True     False    True    True
3        True    True     True     True     True    True
4        True    True     True     True     True    True
5        True    True     True     True     True    True
6        True    True     True     True     True    True
7        True    True     True     True     False   True
8        True    True     True     True     True    True
9        True    True     True     True     True    True

　　（2）缺失数据的处理

　　对于缺失数据的处理方式有以下几种：

　　① dropna()：去除数据结构中值为空的数据行；

In [4]:newDF = df.dropna()
         newDF
Out[4]:
         学号       姓名   英语     数分     高代    解几
0    2308024241    成龙    76      40.0    23.0    60
1    2308024244    周怡    66      47.0    47.0    44
3    2308024249    朱浩    65      72.0    62.0    71
4    2308024219    封印    73      61.0    47.0    46
5    2308024201    退培    60      71.0    76.0    71
6    2308024347    李华    67      61.0    65.0    78
8    2308024326    余皓    66      65.0    61.0    71
9    2308024219    封印    73      61.0    47.0    46

　　② df.fillna()：用其他数据值代替 NaN，有事直接删除空数据会影响分析结果，因此可以对数据进行补充；

In [5]: df.fillna('?')
Out[5]:
         学号       姓名   英语     数分     高代    解几
0    2308024241    成龙    76      40.0    23.0    60
1    2308024244    周怡    66      47.0    47.0    44
2    2308024251    张波    85      ?       45.0    60
3    2308024249    朱浩    65      72.0    62.0    71
4    2308024219    封印    73      61.0    47.0    46
5    2308024201    退培    60      71.0    76.0    71
6    2308024347    李华    67      61.0    65.0    78
7    2308024307    陈田    76      69.0    ?       69
8    2308024326    余皓    66      65.0    61.0    71
9    2308024219    封印    73      61.0    47.0    46

　　③ df.fillna(methon='pad')：用前一个数据值代替 NaN ；

In [6]: df.fillna(method='pad')
Out[6]:
         学号       姓名   英语     数分     高代    解几
0    2308024241    成龙    76      40.0    23.0    60
1    2308024244    周怡    66      47.0    47.0    44
2    2308024251    张波    85      47.0    45.0    60
3    2308024249    朱浩    65      72.0    62.0    71
4    2308024219    封印    73      61.0    47.0    46
5    2308024201    退培    60      71.0    76.0    71
6    2308024347    李华    67      61.0    65.0    78
7    2308024307    陈田    76      69.0    65.0    69
8    2308024326    余皓    66      65.0    61.0    71
9    2308024219    封印    73      61.0    47.0    46

　　④ df.fillna(method='bfill')：用后一个数据值代替 NaN ；

In [7]: df.fillna(method='bfill')
Out[7]:
         学号       姓名   英语     数分     高代    解几
0    2308024241    成龙    76      40.0    23.0    60
1    2308024244    周怡    66      47.0    47.0    44
2    2308024251    张波    85      72.0    45.0    60
3    2308024249    朱浩    65      72.0    62.0    71
4    2308024219    封印    73      61.0    47.0    46
5    2308024201    退培    60      71.0    76.0    71
6    2308024347    李华    67      61.0    65.0    78
7    2308024307    陈田    76      69.0    61.0    69
8    2308024326    余皓    66      65.0    61.0    71
9    2308024219    封印    73      61.0    47.0    46

　　⑤ df.fillna(df.mean())：用平均值或者其他描述性统计量来代替 NaN ；

In [8]: df.fillna(df.mean())
Out[8]:
         学号       姓名   英语     数分      高代    解几
0    2308024241    成龙    76      40.0     23.0    60
1    2308024244    周怡    66      47.0     47.0    44
2    2308024251    张波    85      60.778   45.0    60
3    2308024249    朱浩    65      72.0     62.0    71
4    2308024219    封印    73      61.0     47.0    46
5    2308024201    退培    60      71.0     76.0    71
6    2308024347    李华    67      61.0     65.0    78
7    2308024307    陈田    76      69.0     52.556  69
8    2308024326    余皓    66      65.0     61.0    71
9    2308024219    封印    73      61.0     47.0    46

　　⑥ df.fillna(df.mean()['填补列名':'计算均值的列名'])：可以使用选择列的均值进行缺失值的处理；

In [9]: df.fillna(df.mean()['高代':'解几'])
Out[9]:
         学号       姓名   英语     数分      高代    解几
0    2308024241    成龙    76      40.0     23.0    60
1    2308024244    周怡    66      47.0     47.0    44
2    2308024251    张波    85      NaN      45.0    60
3    2308024249    朱浩    65      72.0     62.0    71
4    2308024219    封印    73      61.0     47.0    46
5    2308024201    退培    60      71.0     76.0    71
6    2308024347    李华    67      61.0     65.0    78
7    2308024307    陈田    76      69.0     52.556  69
8    2308024326    余皓    66      65.0     61.0    71
9    2308024219    封印    73      61.0     47.0    46

　　⑦ df.fillna({'列名1':值1, '列名2':值2})：可以传入一个字典，对不同的列填充不同的值；

In [10]: df.fillna({'数分':100 , '高代':0 })
Out[10]:
         学号       姓名   英语     数分      高代    解几
0    2308024241    成龙    76      40.0     23.0    60
1    2308024244    周怡    66      47.0     47.0    44
2    2308024251    张波    85      100.0    45.0    60
3    2308024249    朱浩    65      72.0     62.0    71
4    2308024219    封印    73      61.0     47.0    46
5    2308024201    退培    60      71.0     76.0    71
6    2308024347    李华    67      61.0     65.0    78
7    2308024307    陈田    76      69.0     0.0     69
8    2308024326    余皓    66      65.0     61.0    71
9    2308024219    封印    73      61.0     47.0    46

　　⑧ strip()：清除字符型数据左右（首尾）指定的字符，默认为空格，中间的不清除。

In [11]: from pandas import DataFrame
           from pandas import Series
           df = DataFrame(({'age': Series([26,85,64,85,85]),'name': Series(['Ben','John','Jerry",'John','John'])})
           df
Out[11]:
     age   name
0   26     Ben
1   85     John
2   64     Jerry
3   85     John
4   85     John

In[12]:df['name'].str.strip()
Out[12]:
0    Ben
1    John
2    Jerry
3    John
4    John
Name: name, dtype: object

4、数据抽取

4.1 字段抽取

　　抽出某列上指定位置的数据做成新的列，格式如下：

slice (start, stop)

　　其中，start 表示开始位置，stop 表示结束位置。

4.2 字段拆分

　　按指定的字符 sep ，拆分已有的字符串，格式如下：

split(sep , n , expand = False)

　　其中，sep 表示用于分割字符串的分隔符；n 表示分割后新增的列数； expand 表示是否展开为数据框，默认为 FALSE ，返回 Series，若为 TRUE，返回 DataFrame。

4.3 重置索引

　　指定某列为索引，以便于对其他数据进行操作，格式如下：

df.set_index('列名')

　　示例代码如下：

In [1]: from pandas import DataFrame
           from pandas import Series
           df = DataFrame(({'age': Series([26,85,64,85,85]),'name': Series(['Ben','John','Jerry",'John','John'])})
           df1 = df.set_index('name')
           df1
Out[1]:
name      age   
Ben       26
John      85     
Jerry     64
John      85
John      85

In[2]: df1.ix['John']　　#ix函数是指通过行标签或者行号索引行数据，类似还有 loc、iloc等。
Out[2]:
name      age   
John      85     
John      85
John      85

4.4 记录抽取

　　根据一定条件，对数据进行抽取，格式如下：

df[condition]

　　其中，condition 表示过滤条件，返回值为 DataFrame ，常见的 condition 类型有：比较运算、范围运算、空置运算、字符匹配和逻辑运算等。

4.5 随机抽样

　　随机从数据中按照一定的行数或者比例抽取数据，格式如下：

numpy.random.randint(start , end , num)

　　其中，参数分别表示范围开始值、结束值、抽样个数。返回值为行的索引值序列。

　　代码示例如下：

In[1]: from pandas import read_excel
          df = read_excel(r'C:\Users\test\test4.xls)
          df.head()

Out[1]:
       学号           电话
0   2308024241   18922254812
1   2308024244   13522255003
2   2308024251   13422259938
3   2308024249   18822256753
4   2308024219   18922253721

In[2]: r = numpy.random.randint(0,3,2)
Out[2]:
       学号           电话
0   2308024241   18922254812
3   2308024249   18822256753

4.6 通过索引抽取数据

　　（1）使用索引名（标签）选取数据：df.loc[行标签 , 列标签]

　　df.loc 的第一个参数为行标签，第二个参数为列标签（可选，默认所有列标签），两个参数既可以是列表也可以是单个字符，如果两个参数都为列表，则返回 DataFrame ，否则为 Series 。当同时抽取多行时，行的索引必须是列表的形式，而不能简单地用逗号分隔。

　　（2）使用索引号选取数据：df.loc[行索引号，列索引号]

4.7 字典数据抽取

　　值将字典数据抽取为 DataFrame，有如下三种方法：

　　（1）字典的 key 和 value 各作为一列，示例代码如下：

In[1]: import pandas 
         from pandas import DataFrame
         d1 = {'a':'[1,2,3]' , 'b':'[0,1,2]'}
         a1 = pandas.DataFrame.from_dict(d1, orient = 'index')　　#将字典转化为 DataFrame，且key 列做成了 index
         a1.index.name = 'key'　　#将 index 的列名改为 'key'
         b1 = a1.reset_index()　　#重新增加 index，并将原 index 做成了 'key'列
         b1.columns = ['key' , 'value']　　#对列重新命名为 'key' 和 'value'
         b1
Out[1]:
      key     value
0      b     [0,1,2]
1      a     [1,2,3]

　　（2）字典里的每一个元素作为一列（同长），示例代码如下：

In[2]:d2 = {'a':'[1,2,3]' , 'b':'[0,1,2]'}　　#字典的 value 必须长度相等
         a2 = DataFame(d2)
         a2
Out[2]:
      a     b
0     1     4
1     2     5
2     3     6

　　（3）字典里的每一个元素作为一列（不同长），示例代码如下：

In[3]: d = {'one' : pandas.Series([1,2,3]) , 'two' : pandas.Series([1,2,3,4])}　　#字典的 value 必须长度可以不等
          df = pandas.DataFrame(d)
          df
Out[3]:
　　　one 　　two
0 　　1.0 　　1
1 　　2.0 　　2
2 　　3.0 　　3
3 　　NaN 　　4

--------------------------------------------

这里暂时只讲到数据导入、数据导出、数据清洗、数据抽取，后面将会讲到的还有数据处理的其他部分，如：插入记录、修改记录等。

posted on 2019-05-12 14:50 终是双曲线阅读(752) 评论(0) 收藏举报

刷新页面返回顶部