第2次作业-titanic数据集练习

1 import pandas as pd
2 titanic = pd.DataFrame(pd.read_excel(r'C:\Users\47973\Desktop\titanic-2.xlsx'))
3 titanic.head()

1 titanic.drop('embark_town',axis=1,inplace=True)
2 titanic.head()

 

 

1 titanic.duplicated()

 

 

1 titanic = titanic.drop_duplicates()
2 titanic.head()

 

 

1 titanic['who'].isnull().value_counts()

 

 

1 titanic['who']=titanic['who'].fillna('man')
2 titanic.head()

 

1 titanic['age']=titanic['age'].fillna(titanic['age'].mean())
2 titanic.head()

 

 

1 titanic.describe()

 

 

1 titanic.replace([512.329200],titanic['fare'].mean())

 

 

二.

1.统计乘客死亡和存活人数

titanic['alive'].value_counts()

 

 2.统计乘客中男女性别人数

titanic['sex'].value_counts()

 

3.统计男女获救的人数

titanic.groupby('survived')['sex'].value_counts().unstack()

 

4.统计乘客所在的船舱等级的人数 

titanic['class'].value_counts()

 

 5.使用corr()函数,判断两个属性是否具有相关性,分析舱位的高低和存活率的关系

titanic['survived'].corr(titanic['pclass'])

 

 6.画出乘客票价与舱位等级的箱体图Boxplot,从图中能够得到哪些结论?

titanic.boxplot(['fare'],['class'])

 

 仓位的价格自然等级越高越贵,同时大部分人都购买了3等票,船上大部分都是三等舱。

 

posted on 2019-10-14 20:52  robot9  阅读(168)  评论(0编辑  收藏  举报

导航