大数据学习(01)——开篇
单位最近开始做大数据平台,借此机会梳理一下大数据相关技术,分享出来共同学习。
为什么会出现大数据技术
随着计算机系统数据的快速增长,单台物理机已经没办法存储和计算这么大规模的数据量,于是大数据技术应运而生,它是分布式技术的一种。
一提到大数据技术,必然会涉及到Hadoop。google的两篇论文是它核心组成部分的理论基础。
它在2006年从Apache Nutch中独立出来,后来成为apache基金会的顶级项目。虽然它已经出现十几年了,但是它本身及其生态圈所蕴含的思想依然值得借鉴和学习。
下面是Hadoop生态包含的一些常用的软件产品和工具。
大数据技术的基本思想
- 分治
- 并行处理
这两个思想在日常生活中很常见。
比如说我们经常在新闻里看到谁谁谁背了一麻袋硬币去银行存钱,银行找来七八个柜员分头清点一整天一合计才知道有多少钱。这个任务要是交给一个柜员去做,那得清点到猴年马月去?这里面就包含了分而治之和并行处理的思想。
大数据技术的处理方式
- 移动计算力而不是数据
- 数据的处理尽量在本地完成
- 使用可顺序读取磁盘I/O代替随机读取磁盘I/O
- 数据分片
- 多副本
大数据能做什么
- 趋势预测
- 决策支持
- 精准营销
- 太多了,取决于抽象和建模
本篇先引出大数据的概念,后面再慢慢来学习。
浙公网安备 33010602011771号