python对titanic进行数据分析
一、数据描述
1、数据解释
- survival:这个人幸存下来了,这也是我们要预测的值
- pclass:就是这个人做的是不是头等仓, class 1 = 1st, 2 = 2nd, 3 = 3rd
- sex: 性别
- Age:年龄
- sibsp:船上是否有他的兄弟姐妹
- parch:船上是否有他的父母
- ticket:船票的号码
- fare:所花费的船票的费用
- cabin:船舱的号码
- embarked:登船港口,泰坦尼克号总共有三个登船港口
2、导入数据

从数据输出结果可知,一共统计了891名乘客信息。其中,有177名乘客的年龄信息有缺失值,无缺失的乘客的平均年龄约为30岁;一等舱乘客数量不足25%,三等舱乘客数量超过50%。
二、提出问题
1、乘客的存活率是否跟性别、舱位等级有关;
2、不同舱位中的性别是否会影响存活率;
3、乘客的存活率是否跟年龄有关;
4、不同年龄段的不同性别是否会影响存活率。
三、数据清洗和预处理
1、查找缺失值

2、处理缺失值
在缺失的数据里,只有age我们可能会用到,所以我只处理该项缺失值。
通过上面的分析,我们知道了乘客的平均年龄是30岁,所以我们用平均年龄填充缺失值。

四、数据可视化
1、分析性别、舱位等级对存活率的影响


可以看到女性的存活率要远远高出男性,且头等舱的存活率高于二等舱,二等舱高于三等舱。
2、分析不同舱位中性别对存活率的影响

可以看到不同舱位中,都是女性的存活率远远高于男性,但只有二等舱中的男女存活率相差最为悬殊。
3、分析年龄对存活率的影响

可以看出未成年人的存活率是要高于成年人和老人的。
4、不同年龄端性别对存活率的影响

可以看到未成年人的男女存活率基本持平,但在成年人和老人的年龄段中,女性的存活率要远远高于男性。
五、总结
1、在泰坦尼克号中不同的舱位确实会对乘客的存活率有一定影响,越好的舱位,乘客的存活率越高;
2、在灾难来临时,绝大多数男性乘客都会秉承“儿童优先”,其次是“女士优先”的原则,把自己的生存机会更多的让给儿童和妇女,这是一种绅士风度的体现

浙公网安备 33010602011771号