python对titanic进行数据分析

一、数据描述

1、数据解释

  • survival:这个人幸存下来了,这也是我们要预测的值
  • pclass:就是这个人做的是不是头等仓, class 1 = 1st, 2 = 2nd, 3 = 3rd
  • sex: 性别
  • Age:年龄
  • sibsp:船上是否有他的兄弟姐妹
  • parch:船上是否有他的父母
  • ticket:船票的号码
  • fare:所花费的船票的费用
  • cabin:船舱的号码
  • embarked:登船港口,泰坦尼克号总共有三个登船港口

2、导入数据

 

从数据输出结果可知,一共统计了891名乘客信息。其中,有177名乘客的年龄信息有缺失值,无缺失的乘客的平均年龄约为30岁;一等舱乘客数量不足25%,三等舱乘客数量超过50%。

二、提出问题

1、乘客的存活率是否跟性别、舱位等级有关;

2、不同舱位中的性别是否会影响存活率;

3、乘客的存活率是否跟年龄有关;

4、不同年龄段的不同性别是否会影响存活率。

三、数据清洗和预处理

1、查找缺失值

 

 2、处理缺失值

在缺失的数据里,只有age我们可能会用到,所以我只处理该项缺失值。

通过上面的分析,我们知道了乘客的平均年龄是30岁,所以我们用平均年龄填充缺失值。

 

 四、数据可视化

1、分析性别、舱位等级对存活率的影响

 

 

 可以看到女性的存活率要远远高出男性,且头等舱的存活率高于二等舱,二等舱高于三等舱。

2、分析不同舱位中性别对存活率的影响

 

 可以看到不同舱位中,都是女性的存活率远远高于男性,但只有二等舱中的男女存活率相差最为悬殊。

3、分析年龄对存活率的影响

可以看出未成年人的存活率是要高于成年人和老人的。

4、不同年龄端性别对存活率的影响

 可以看到未成年人的男女存活率基本持平,但在成年人和老人的年龄段中,女性的存活率要远远高于男性。

五、总结

1、在泰坦尼克号中不同的舱位确实会对乘客的存活率有一定影响,越好的舱位,乘客的存活率越高;

2、在灾难来临时,绝大多数男性乘客都会秉承“儿童优先”,其次是“女士优先”的原则,把自己的生存机会更多的让给儿童和妇女,这是一种绅士风度的体现

 

posted @ 2021-06-18 16:38  我所希冀的未来  阅读(448)  评论(0)    收藏  举报