第2次作业-titanic数据集练习

 

 一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。

import pandas as pd
titanic=pd.DataFrame(pd.read_excel('titanic-2.xlsx'))
titanic.head()

#进行数据清洗,删掉无效列
titanic.drop('embark_town',axis=1,inplace=True)
titanic.head()

#删除掉重复值
titanic=titanic.drop_duplicates()
titanic.head()

#缺失值与空值处理
titanic['who'].isnull().value_counts()

#使用fillna方法将‘who'字段的空值数据填充为man
titanic['who']=titanic['who'].fillna('man')
titanic.head()

#对表中的age字段填充平均值
titanic['age']=titanic['age'].fillna(titanic['age'].mean())
titanic.head()

#fare字段存在异常值,调用replace方法,将异常值替换为平均值
titanic.replace([512.329200],titanic['fare'].mean())

二、对titanic数据集完成以下统计操作

1.统计乘客死亡和存活人数

titanic['survived'].value_counts()

 

2.统计乘客中男女性别人数

titanititanic['sex'].value_counts()

3.统计男女获救的人数

titanic.groupby('survived')['sex'].value_counts().unstack()

4.统计乘客所在的船舱等级的人数

titanic.groupby(['pclass']).size()

5.使用corr()函数,判断两个属性是否具有相关性,分析舱位的高低和存活率的关系

titanic['survived'].corr(titanic['pclass'])

 

分析:负相关,即舱位越高,存活率越高。

6.画出乘客票价与舱位等级的箱体图Boxplot,从图中能够得到哪些结论?

 

titanic.boxplot(['fare'],['pclass'])

 结论:舱位越高,价格越贵,存活率越高

 

 

 

posted @ 2019-10-14 13:54  我真的不会!  阅读(155)  评论(0)    收藏  举报