大数据分析入门

1. 大数据的职责和能力

1. 类似 数据分析师和数据挖掘工程师 又有些不同。

2. 需要熟悉大数据各类SQL外, Hadoop, Python或Scala有一定掌握。

3. 工作内容: 数据采集、清洗和预处理

      大数据平台上的数据仓库的建设

      离线数据统计脚本的开发

      实时数据处理作业开发

         日常取数和分析

      数据可视化

      还来数据挖掘和建模

      机器学习,深度学习模型开发

4 适合人群: 数据 统计学专业,计算机专业有扎实数学基础的学员。

5. 运维,开发,想转数据分析或数据挖掘。

6. 大数据需要对数据库的知识掌握很有必要,脚本语言能力HiveSQL Python,硬件、OS、

网络、数据库的基础知识 HDFS Hive基本命令,数据仓库建模能力,数据、统计学、数据挖掘、算法能力。

7. 背景知识,注意积累。

 

Hadoop简介

1.  什么是Hadoop?

   应用场景:海量数据存储  日志处理  数据分析  机器学习;

不适应场景: 少量结构化数据(少于TB), 低延迟数据访问,大量小文件, 实时计算

2.  版本选择

3.  应用场景

4. 一些替代方案

 

posted @ 2020-02-27 15:54  姓蜀名黍  阅读(189)  评论(0编辑  收藏  举报