Pandas入门
数据读取
1 代码和文件放到同一个文件夹下面 pandas.read_csv(" ")
2 pandas中核心结构是 DataFrame
3 pandas称字符型为 object numpy称做string
4 注意要把上一步执行完再执行下一步 不然报错
5 函数 .head(n) 显示前n条数据 (notebook可以逐步显示)
6 函数 .tail 显示后n调数据
7 函数 .columns 显示每一列的列名
8 函数 .shape 显示数据样本的行列数
索引与计算
9 .loc[] 定位当前位置的数据 .loc[3:6]
10 利用列名(第一行的名字)读取每一列的数据
11 通过遍历数据提取出同特征的数据(如 单位相同的 g)
12 把 mg 转换成 g
13 维度相同的数据进行相应数据的计算
14 往数据中添加新的特征
15 .max 寻找最值
数据预处理实例(设计kaggle竞赛“泰坦尼克”数据分析 3min开始)
16 排序操作(默认从小到大) .sort_values(" ", inplace=True) inplace是否建立新的矩阵 ascending=False 从大到小
17 .isnull( ) 找出缺失值 并输出 T/F
18 进一步操作 找出该特征有多少个缺失值
常用与处理方法
19 有缺失值无法计算平均值
20 可以把缺失值去掉然后求取平局值(或者填充中位数或者众数),或者直接利用 .mean 计算平均值
21 寻找一二三等舱船票的平均价格 In[14]笨方法 In[15]利用 .pivot_table 函数 .pivot_table(index="Pclass", value="Survived", aggfunc=np.mean) 统计Pclass与Survived的平均值关系。若不指定aggfunc= 则默认为np.mean(平均值)
22 一个量与其他两个量的关系 In[17]
23 .dropna 丢弃样本值
自定义函数
24 改变索引 .reset_index(drop=True) 把原来的索引drop掉
25 def定义函数 In[23].apply函数调用自定义的函数
Series基本结构
26 DataFrame(矩阵)是由一系列Series(一行或者一列)构成的 Series是由nparray构成的
27 string型也像数值一样可以做索引、切片

浙公网安备 33010602011771号