数据分析实战-kaggle上泰坦尼克的任务案例

本项目课程的主要目的熟悉numpy pandas的相关操作,掌握基本的数据分析流程,本篇文章主要学会如何加载数据,查看数据,然后学习Pandas一些基础操
作,最后开始尝试探索性的数据分析

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 任务一:导入numpy和pandas

 

 

1.1.2 任务二:载入数据

(1)使用相对路径

 

 (2)使用绝对路径

 

 

 

 个人理解:使用相对路径载入数据需要保证要读取的文件在当前的目录下,绝对路径的话需要加上要读取文件所在的各层文件夹,写路径的时候需要注意反斜杠和斜杠;

思考:pd.read_csv()和pd.read_table()的区别?

'''
1、pd.read_csv()和pd.read_table()的区别:read_csv()从文件、url、文件型对象中加载带分隔符的数据,默认分隔符为逗号;read_table()从文件、url、文件型对象中加载带分隔符的数据,默认分隔符为制表符;
2、'.tsv'和'.csv'的不同:TSV 是Tab-separated values的缩写,即制表符分隔值。 相对来说CSV,Comma-separated values(逗号分隔值)更常见一些。
TSV与CSV的区别: 1)从名称上即可知道,TSV是用制表符(Tab,'\t')作为字段值的分隔符;CSV是用半角逗号(',')作为字段值的分隔符; 2)IANA规定的标准TSV格式,字段值之中是不允许出现制表符的。
'''

1.1.3 任务三:每1000行为一个数据模块,逐块

 

 

 思考: 什么是逐块读取?为什么要逐块读取呢?

'''
逐块读取就是将文本分成若干块;
对于几百MB的CSV文件,可以直接使用pd.read_csv()进行读取。然而如果csv文件太大,达到几个Gb,这种方法就不可取。这时应使用chunk,进行分块读取;
通过设置chunksize的参数,控制每次迭代的大小;如上面的数据只有891行,参数设置1000后只迭代了一次;改成500试一下,循环打印了两次;

'''

1.1.4 任务四:将表头改成中文,索引改为乘客ID

 

 

1.2 初步观察

1.2.1 任务一:查看数据的基本信息

#写入代码
df1.info()

1.2.2 任务二:观察表格前10行的数据和后15行的数据

#写入代码
df1.head(10)

1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False

#写入代码
df1.isnull().head()

1.3 保存数据

1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv

#写入代码
# 注意:不同的操作系统保存下来可能会有乱码。大家可以加入`encoding='GBK' 或者 ’encoding = ’uft-8‘‘`
df1.to_csv('train_chinese1.csv',encoding='GBK')

【总结】数据的加载以及入门,接下来就要接触数据本身的运算,我们将主要掌握numpy和pandas在工作和项目场景的运用。

 

posted @ 2021-06-14 22:07  herj-棒棒哒  阅读(600)  评论(0)    收藏  举报