大数据Hadoop入门教程 | (一)概论
数据是什么
- 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。
- 它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,"0、1、2”、“阴、雨、下降”、"学生的档案记录、货物的运输情况”等都是数据。
数据如何产生
对客观事物的计量和记录产生数据
企业数据分析方向
- 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;
- 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化;
- 离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;
在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。 - 实时分析(Real Time Processing | Streaming):面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
- 离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;
- 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势。
- 机器学习(Machine Learning):基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。
数据分析六步曲
数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑
张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤:
Step1:明确分析目的和思路
-
目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
-
思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;
-
数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。
Step2:数据收集
- 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
- 数据传输搬运的过程:比如采集数据库数据到数据分析平台
Step3:数据处理
- 准确来说,应该称之为数据预处理。
- 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗、数据转化、数据提取、数据计算;
- 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据。
Step4:数据分析
- 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
- 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;
Step5:数据展现
- 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
- 数据可视化(Data Visualization)属于数据应用的一种;
- 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。
step6:报告撰写
- 数据分析报告是对整个数据分析过程的一个总结与呈现
- 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
- 需要有明确的结论,最好有建议或解决方案
总结
一切围绕着数据
通俗描述:数据从哪里来、数据到哪里去
核心步骤:采集、处理、分析、应用
大数据概念
大数据定义
- 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;
- 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据5V特征
- Volume:数据体量大
- Variety:种类、来源多样化
- Value:低价值密度
- Velocity:速度快
- Veracity:数据的质量
应用场景
- 电商领域:精准广告位、个性化推荐、大数据杀熟
- 传媒领域:精准营销、猜你喜欢、交互推荐
- 金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
- 安防领域:犯罪预防、天网监控
- 医疗领域:智慧医疗、疾病预防、病源追踪
分布式与集群
概念
分布式、集群是两个不同的概念,但口语中经常混淆二者。
- 分布式:多台机器每台机器上部署不同组件
- 集群:多台机器每台机器上部署相同组件
混淆点
- 分布式、集群的共同点是:都是多台机器(服务器)组成的;
- 因此口语中混淆两者概念的
- 时候都是:相对于单机来说的。
应用
数据大爆炸,海量数据处理场景面临问题
-
如何存储?
- 单机存储有瓶颈多台机器分布式存储
-
如何计算?
- 单机计算能力有限多台机器分布式计算
操作系统
概念
- 操作系统(operating system,简称OS)是管理计算机硬件与软件资源的程序,需要处理如:管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务;
- 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。
- 操作系统也提供一个让用户与系统交互的操作界面。
操作系统分类
操作系统发展至今,种类繁多,可以根据应用的不同领域进行划分:
- 桌面操作系统:所谓的桌面指的是图形化操作页面。
- Mac os(Apple)、Windows(Microsoft)、Linux:三足鼎立
- 服务器操作系统:般指的是安装在大型计算机上的操作系统。比如Wb服务器、应用服务器和数据库服务器等,是企业IT系统的基础架构平台。
- 主要分为四大流派:Unix、Linux、Windows Server和Netware。
- 系统嵌入式操作系统:是一种完全嵌入受控器件内部,为特定应用而设计的专用计算机系统。
- 如μClinux(嵌入式Linux)、WinCE(微软嵌入式、移动计算平台)、RTOS(嵌入式实时操作系统,军事航空领域)等。
- 在工业、军事、航空等领域使用较多。(车机系统)
- 移动设备操作系统:主要应用在智能手机、平板等智能设备上。
- 主要有Android(谷歌)、iOS(苹果)、Symbian(诺基亚)、BlackBerry 0S(黑莓)、windows mobile(微软)、Harmony(华为鸿蒙)等。
Linux起源与发展
- Unix系统是较早被广泛使用的计算机操作系统之一,由Ken Thompson在AT&T贝尔实验室实现,后续发展中,因开源、版权等问题陷入不断纠纷,延伸出不同Unix版本;
- 1991年芬兰学生Linus Torvalds发布Linux:系统第一个版本,遵循GPL协议(通用公共许可证),开源免费;
- Linux是一个类似Unix的操作系统,Linux的初衷就是要替代Unix,并在功能和用户体验上进行优化,所以Linux模仿了Unix(但并没有抄袭Unix的源码),使得Linux在外观和交互上与Unix非常类似。
Linux内核(Kernel)
- 操作系统的核心部分简称内核,Linux?第一版本独立内核由Linus Torvalds开发实现,约10000行代码;
- 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写,但是仍然拥有Linux内核且保留了选择新代码和需要合并的新方法的最终裁定权;
- Linux操作系统=1 inux Kerne1+GNU软件及系统软件+必要的应用程序
- Linuxi选择企鹅图案作为Logo,其含义是:开放源代码的Linux像企鹅一样为全人类共同所有。
Linux发行版本
- Linux发行版就是由Linux内核与各种常用软件的集合产品,如今全球大约有数百款的Linux发行版本。
- 从大的方面来说,Linux2发行版可大致分为个人桌面版和企业服务器版。
- 个人桌面版中,
Ubuntu
成熟度颇高较受欢迎,而Redhat
(红帽系列)及其延伸版本(Centos
)凭借稳定的性能在企业服务器中占比很大。
视频链接:https://www.bilibili.com/video/BV1CU4y1N7Sh?p=7&share_source=copy_pc
原创作者:孤飞-博客园
原文链接:https://www.cnblogs.com/ranxi169/p/16606891.html