随笔分类 -  Hadoop

摘要:8.1Hadoop优化与发展 1. Hadoop1.0的不足与局限 抽象层次低 表达能力有限 开发者自己管理作业之间的依赖关系 难以看到程序整体逻辑 执行迭代效率低 浪费资源 实时性差 2. 针对Hadoop的改进与提升 在1.0中单一名称节点,存在单点失效问题,设计了HDFS HA提供名称节点热备 阅读全文
posted @ 2019-12-25 11:53 睿晞 阅读(681) 评论(0) 推荐(0)
摘要:7.1概述 1. 分布式编程,传统的程序开发都是以单指令、单数据流的方式顺序执行,但是性能受到单台机器性能的限制,可扩展性差。而分布式并行程序可以很好运行在由大量计算机构成的集群上,很容易实现计算能力的扩充。 2. MapReduce框架会为每一个Map任务输入一个数据子集,Map任务生成的结果会继 阅读全文
posted @ 2019-12-24 23:12 睿晞 阅读(954) 评论(0) 推荐(0)
摘要:6.1云数据库概述 1. 云计算是云数据库兴起的基础 2. 云数据库的概念,云数据库是部署和虚拟化在云计算环境中的数据库。对于云数据库而言最重要的是,他允许用户以服务的方式通过网络获得云端的数据库功能。 3. 数据库特性: 动态扩展 高可用性 较低的使用代价 易用性 高性能 免维护 安全 4. 云数 阅读全文
posted @ 2019-12-23 23:33 睿晞 阅读(732) 评论(0) 推荐(0)
摘要:5.1NoSQL数据库简介 1. NoSQL是一种不同于关系型数据库的数据库管理系统设计方式,是对于非关系型数据库的统称,它采用的数据模型并非传统关系数据库,而是类似键值、列族、文档等非关系模型。 2. NoSQL数据库具有的特点: 灵活的可扩展性 灵活的数据模型 与云计算紧密融合 5.2NoSQL 阅读全文
posted @ 2019-12-23 20:53 睿晞 阅读(870) 评论(0) 推荐(0)
摘要:4.1概述 1. HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化松散数据。 2. HBase与传统数据库的区别 数据类型上的区别,它把数据存储为未经解释的字符串 数据操作,没有像关系型数据库那样的复杂数据操作,通常采用单 阅读全文
posted @ 2019-12-22 23:53 睿晞 阅读(854) 评论(0) 推荐(0)
摘要:3.1分布式文件 1. HDFS默认一个块的大小是64MB,与普通文件不同的是如果一个文件小于数据块的大小,它并不占用整个数据块的存储空间。 2. 主节点又叫名称节点;另一个叫从节点又叫数据节点。名称节点负责文件和目录的创建、删除和重命名,同时管理数据节点和文件块的映射关系。数据节点负责数据存储和读 阅读全文
posted @ 2019-12-22 00:53 睿晞 阅读(780) 评论(0) 推荐(0)
摘要:2.1概述 1. Hadoop是Apache旗下的开源分布式计算平台,是基于Java开发的,具有很好的跨平台特性,其中核心文件是MapReduce和HDFS,而HDFS是根据谷歌文件系统GFS开源实现,是面向普通硬件环境的分布式文件系统,具有很好的容错性和很高的读写速度。MapReduce是根据谷歌 阅读全文
posted @ 2019-12-22 00:49 睿晞 阅读(441) 评论(0) 推荐(0)
摘要:1.2大数据概念 数据量大 数据类型繁多 处理速度快 价值密度低 1.3大数据影响 研究变化经历了从 实验 到 理论 到 计算 再到 数据 思维的变化 1. 全样而非抽样 2. 效率而非精准 3. 相关而非因果 1.6大数据计算模式 1. 批处理计算,主要针对于大规模的数据批量处理。MapReduc 阅读全文
posted @ 2019-12-22 00:48 睿晞 阅读(465) 评论(0) 推荐(0)