大数据应用技术课程实践--选题与实践方案


一、选题与意义

1.Hadoop平台应用

2.Kaggle分析数据项目

简要说明理由与意义。

选择Kaggle分析数据项目,电脑环境比较差对安装配置又比较不在行,故选择Kaggle上的项目进行分析。

二、实践方案

简要说明理由。

选择了深圳市二手房房价数据进行研究。

数据描述:

深圳二手房房价等相关数据,共18514条数据

数据来源:

搜房网 深圳 二手房数据

 通过对数据的清洗及处理,筛选对房价有显著影响的特征变量,对假设结论进行检验,确定特征变量,建立房价预测模型,并对假设情景进行模拟

三、实践任务分解

根据所选的题目,明确实验步骤,分解任务到每天

1.目标数据集选定

2.数据获取与理解

3.设定研究目标

4.数据清洗与预处理

5.因变量分析

6.自变量分析

7.建立预测模型(线性回归、k-means分类)

8.模型评估与完善

9.模拟场景预测

10.完善、总结、报告编写

四、实践计划

按任务分解撰写计划表,每天按计划表开展工作。

根据实际情况更新计划表,有必要时调整。

说明:

  • 个人项目,不要求组队,确实需要组队的说明理由。
  • 边操作边记录;
  • 每天完成当天文档;
  • 最后综合成课程实践报告。
posted @ 2020-06-23 21:27  HvYan  阅读(262)  评论(0)    收藏  举报