大数据分析入门
1. 大数据的职责和能力
1. 类似 数据分析师和数据挖掘工程师 又有些不同。
2. 需要熟悉大数据各类SQL外, Hadoop, Python或Scala有一定掌握。
3. 工作内容: 数据采集、清洗和预处理
大数据平台上的数据仓库的建设
离线数据统计脚本的开发
实时数据处理作业开发
日常取数和分析
数据可视化
还来数据挖掘和建模
机器学习,深度学习模型开发
4 适合人群: 数据 统计学专业,计算机专业有扎实数学基础的学员。
5. 运维,开发,想转数据分析或数据挖掘。
6. 大数据需要对数据库的知识掌握很有必要,脚本语言能力HiveSQL Python,硬件、OS、
网络、数据库的基础知识 HDFS Hive基本命令,数据仓库建模能力,数据、统计学、数据挖掘、算法能力。
7. 背景知识,注意积累。
Hadoop简介
1. 什么是Hadoop?
应用场景:海量数据存储 日志处理 数据分析 机器学习;
不适应场景: 少量结构化数据(少于TB), 低延迟数据访问,大量小文件, 实时计算
2. 版本选择
3. 应用场景
4. 一些替代方案