一、选题与意义

1.Hadoop平台应用

2.Kaggle分析数据项目

简要说明理由与意义。

选择Kaggle分析数据项目,因为Kaggle平台是一个机器学习竞赛、编写和分享代码的平台,里面也有很多的项目可以进行学习。在之前没有接触过这个平台。因此在本次学习中,想尝试使用这个平台,并完成上面的一个项目。

二、实践方案

简要说明理由。

我选择的项目是关于人口年收入的分析与预测,在kaggle平台上获取人口信息数据集,根据数据集中的人口的年龄,工作类型,学历水平以及 婚姻状况等等因素进行分析和预测人口年收入水平。

选择逻辑回归模型以及高斯朴素贝叶斯模型进行模型构建,将模型训练好后进行样本测试,对模型进行评估,并根据不同的因素进行预测人口年收入。

三、实践任务分解

根据所选的题目,明确实验步骤,分解任务到每天。

 

四、实践计划

按任务分解撰写计划表,每天按计划表开展工作。

第天根据实际情况更新计划表,有必要时调整。

 

1.

 

大数据平台安装软件:

链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m

虚拟机镜像文件:

链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
提取码:q0lt

2.

https://www.kaggle.com/competitions

说明:

    • 个人项目,不要求组队,确实需要组队的说明理由。
    • 边操作边记录;
    • 每天完成当天文档;
    • 最后综合成课程实践报告。