Hadoop - 随笔分类 - 睿晞

《大数据技术原理与应用》第二版-第八章Hadoop再探讨

摘要：8.1Hadoop优化与发展 1. Hadoop1.0的不足与局限抽象层次低表达能力有限开发者自己管理作业之间的依赖关系难以看到程序整体逻辑执行迭代效率低浪费资源实时性差 2. 针对Hadoop的改进与提升在1.0中单一名称节点，存在单点失效问题，设计了HDFS HA提供名称节点热备阅读全文

posted @ 2019-12-25 11:53 睿晞阅读(681) 评论(0) 推荐(0)

《大数据技术原理与应用》第二版-第七章MapReduce

摘要：7.1概述 1. 分布式编程，传统的程序开发都是以单指令、单数据流的方式顺序执行，但是性能受到单台机器性能的限制，可扩展性差。而分布式并行程序可以很好运行在由大量计算机构成的集群上，很容易实现计算能力的扩充。 2. MapReduce框架会为每一个Map任务输入一个数据子集，Map任务生成的结果会继阅读全文

posted @ 2019-12-24 23:12 睿晞阅读(954) 评论(0) 推荐(0)

《大数据技术原理与应用》第二版-第六章云数据库

摘要：6.1云数据库概述 1. 云计算是云数据库兴起的基础 2. 云数据库的概念，云数据库是部署和虚拟化在云计算环境中的数据库。对于云数据库而言最重要的是，他允许用户以服务的方式通过网络获得云端的数据库功能。 3. 数据库特性：动态扩展高可用性较低的使用代价易用性高性能免维护安全 4. 云数阅读全文

posted @ 2019-12-23 23:33 睿晞阅读(732) 评论(0) 推荐(0)

《大数据技术原理与应用》第二版-第五章NoSQL数据库

摘要：5.1NoSQL数据库简介 1. NoSQL是一种不同于关系型数据库的数据库管理系统设计方式，是对于非关系型数据库的统称，它采用的数据模型并非传统关系数据库，而是类似键值、列族、文档等非关系模型。 2. NoSQL数据库具有的特点：灵活的可扩展性灵活的数据模型与云计算紧密融合 5.2NoSQL 阅读全文

posted @ 2019-12-23 20:53 睿晞阅读(870) 评论(0) 推荐(0)

《大数据技术原理与应用》第二版-第四章分布式数据库HBase

摘要：4.1概述 1. HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化松散数据。 2. HBase与传统数据库的区别数据类型上的区别，它把数据存储为未经解释的字符串数据操作，没有像关系型数据库那样的复杂数据操作，通常采用单阅读全文

posted @ 2019-12-22 23:53 睿晞阅读(854) 评论(0) 推荐(0)

《大数据技术原理与应用》第二版-第三章分布式文件系统HDFS

摘要：3.1分布式文件 1. HDFS默认一个块的大小是64MB，与普通文件不同的是如果一个文件小于数据块的大小，它并不占用整个数据块的存储空间。 2. 主节点又叫名称节点；另一个叫从节点又叫数据节点。名称节点负责文件和目录的创建、删除和重命名，同时管理数据节点和文件块的映射关系。数据节点负责数据存储和读阅读全文

posted @ 2019-12-22 00:53 睿晞阅读(780) 评论(0) 推荐(0)

《大数据技术原理与应用》第二版-第二章大数据处理架构Hadoop

摘要：2.1概述 1. Hadoop是Apache旗下的开源分布式计算平台，是基于Java开发的，具有很好的跨平台特性，其中核心文件是MapReduce和HDFS，而HDFS是根据谷歌文件系统GFS开源实现，是面向普通硬件环境的分布式文件系统，具有很好的容错性和很高的读写速度。MapReduce是根据谷歌阅读全文

posted @ 2019-12-22 00:49 睿晞阅读(441) 评论(0) 推荐(0)

《大数据技术原理与应用》第二版-第一章大数据概述

摘要：1.2大数据概念数据量大数据类型繁多处理速度快价值密度低 1.3大数据影响研究变化经历了从实验到理论到计算再到数据思维的变化 1. 全样而非抽样 2. 效率而非精准 3. 相关而非因果 1.6大数据计算模式 1. 批处理计算，主要针对于大规模的数据批量处理。MapReduc 阅读全文

posted @ 2019-12-22 00:48 睿晞阅读(465) 评论(0) 推荐(0)

睿晞

随笔分类 - Hadoop

公告