数据分析实战-kaggle上泰坦尼克的任务案例
本项目课程的主要目的熟悉numpy pandas的相关操作,掌握基本的数据分析流程,本篇文章主要学会如何加载数据,查看数据,然后学习Pandas一些基础操
作,最后开始尝试探索性的数据分析
1.1 载入数据
数据集下载 https://www.kaggle.com/c/titanic/overview
1.1.1 任务一:导入numpy和pandas

1.1.2 任务二:载入数据
(1)使用相对路径

(2)使用绝对路径


个人理解:使用相对路径载入数据需要保证要读取的文件在当前的目录下,绝对路径的话需要加上要读取文件所在的各层文件夹,写路径的时候需要注意反斜杠和斜杠;
思考:pd.read_csv()和pd.read_table()的区别?
'''
1、pd.read_csv()和pd.read_table()的区别:read_csv()从文件、url、文件型对象中加载带分隔符的数据,默认分隔符为逗号;read_table()从文件、url、文件型对象中加载带分隔符的数据,默认分隔符为制表符;
2、'.tsv'和'.csv'的不同:TSV 是Tab-separated values的缩写,即制表符分隔值。 相对来说CSV,Comma-separated values(逗号分隔值)更常见一些。
TSV与CSV的区别: 1)从名称上即可知道,TSV是用制表符(Tab,'\t')作为字段值的分隔符;CSV是用半角逗号(',')作为字段值的分隔符; 2)IANA规定的标准TSV格式,字段值之中是不允许出现制表符的。
'''
1.1.3 任务三:每1000行为一个数据模块,逐块

思考: 什么是逐块读取?为什么要逐块读取呢?
'''
逐块读取就是将文本分成若干块;
对于几百MB的CSV文件,可以直接使用pd.read_csv()进行读取。然而如果csv文件太大,达到几个Gb,这种方法就不可取。这时应使用chunk,进行分块读取;
通过设置chunksize的参数,控制每次迭代的大小;如上面的数据只有891行,参数设置1000后只迭代了一次;改成500试一下,循环打印了两次;
'''
1.1.4 任务四:将表头改成中文,索引改为乘客ID

1.2 初步观察
1.2.1 任务一:查看数据的基本信息
#写入代码
df1.info()
1.2.2 任务二:观察表格前10行的数据和后15行的数据
#写入代码
df1.head(10)
1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False
#写入代码
df1.isnull().head()
1.3 保存数据
1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv
#写入代码
# 注意:不同的操作系统保存下来可能会有乱码。大家可以加入`encoding='GBK' 或者 ’encoding = ’uft-8‘‘`
df1.to_csv('train_chinese1.csv',encoding='GBK')
【总结】数据的加载以及入门,接下来就要接触数据本身的运算,我们将主要掌握numpy和pandas在工作和项目场景的运用。
浙公网安备 33010602011771号