数据分析实战-kaggle上泰坦尼克的任务案例

本项目课程的主要目的熟悉numpy pandas的相关操作，掌握基本的数据分析流程，本篇文章主要学会如何加载数据，查看数据，然后学习Pandas一些基础操
作，最后开始尝试探索性的数据分析

1.1 载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1.1 任务一：导入numpy和pandas

1.1.2 任务二：载入数据

（1）使用相对路径

（2）使用绝对路径

个人理解：使用相对路径载入数据需要保证要读取的文件在当前的目录下，绝对路径的话需要加上要读取文件所在的各层文件夹，写路径的时候需要注意反斜杠和斜杠；

思考：pd.read_csv()和pd.read_table()的区别？

'''
1、pd.read_csv()和pd.read_table()的区别：read_csv()从文件、url、文件型对象中加载带分隔符的数据，默认分隔符为逗号；read_table()从文件、url、文件型对象中加载带分隔符的数据，默认分隔符为制表符；
2、'.tsv'和'.csv'的不同：TSV 是Tab-separated values的缩写，即制表符分隔值。相对来说CSV，Comma-separated values（逗号分隔值）更常见一些。
TSV与CSV的区别： 1）从名称上即可知道，TSV是用制表符（Tab,'\t'）作为字段值的分隔符；CSV是用半角逗号（','）作为字段值的分隔符； 2）IANA规定的标准TSV格式，字段值之中是不允许出现制表符的。
'''

1.1.3 任务三：每1000行为一个数据模块，逐块

思考：什么是逐块读取？为什么要逐块读取呢？

'''
逐块读取就是将文本分成若干块；
对于几百MB的CSV文件，可以直接使用pd.read_csv（）进行读取。然而如果csv文件太大，达到几个Gb，这种方法就不可取。这时应使用chunk，进行分块读取;
通过设置chunksize的参数，控制每次迭代的大小；如上面的数据只有891行，参数设置1000后只迭代了一次；改成500试一下，循环打印了两次；

'''

1.1.4 任务四：将表头改成中文，索引改为乘客ID

1.2 初步观察

1.2.1 任务一：查看数据的基本信息

#写入代码
df1.info()

1.2.2 任务二：观察表格前10行的数据和后15行的数据

#写入代码
df1.head(10)

1.2.4 任务三：判断数据是否为空，为空的地方返回True，其余地方返回False

#写入代码
df1.isnull().head()

1.3 保存数据

1.3.1 任务一：将你加载并做出改变的数据，在工作目录下保存为一个新文件train_chinese.csv

#写入代码
# 注意：不同的操作系统保存下来可能会有乱码。大家可以加入`encoding='GBK' 或者 ’encoding = ’uft-8‘‘`
df1.to_csv('train_chinese1.csv',encoding='GBK')

【总结】数据的加载以及入门，接下来就要接触数据本身的运算，我们将主要掌握numpy和pandas在工作和项目场景的运用。

posted @ 2021-06-14 22:07 herj-棒棒哒阅读(600) 评论(0) 收藏举报

刷新页面返回顶部