1.12

python进行数据清洗的知识点(一)

数据清洗常用工具

目前在Python中, numpy和pandas是最主流的工具
Numpy中的向量化运算使得数据处理变得高效
Pandas提供了大量数据清洗的高效方法
在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率
1.1 Numpy
Numpy常用数据结构
Numpy中常用的数据结构是ndarray格式
使用array函数创建,语法格式为array(列表或元组)
可以使用其他函数例如arange、linspace、zeros等创建


Numpy常用方法
ndim: 返回int,表示ndarray的维度
shape:返回尺寸,几行几列
size:返回数组元素的个数
dtype:返回数组中元素的类型
运算:直接可以在每个元素加减乘除


数组访问方法


Numpy常用数据清洗函数
排序函数
• sort函数: 从小到大进行排序
• argsort函数: 返回的是数据中从小到大的索引值
数据的搜索
• np.where: 可以自定义返回满足条件的情况
• np.extract: 返回满足条件的元素值


1.2 Pandas
Pandas常用数据结构series和方法
通过pandas.Series来创建Series数据结构。
pandas.Series(data,index,dtype,name)。
上述参数中,data可以为列表,array或者dict。
上述参数中, index表示索引,必须与数据同长度,name代表对象的名称


Pandas常用数据结构dataframe和方法
通过pandas.DataFrame来创建DataFrame数据结构。
pandas. DataFrame(data,index,dtype,columns)。
上述参数中,data可以为列表,array或者dict。
上述参数中, index表示行索引, columns代表列名或者列标签


series和dataframe常用方法
values 返回对象所有元素的值
index 返回行索引
dtypes 返回索引
shape 返回对象数据形状
ndim 返回对象的维度
size 返回对象的个数
columns 返回列标签(只针对dataframe数据结构)

posted @ 2024-01-12 21:46  布吉岛???  阅读(17)  评论(0)    收藏  举报