随笔分类 - 分布式
摘要:0 概述 分布式框架中的Master-Slave类型,Slave节点负责工作的具体执行,Master负责任务的分发或者相关元数据的存储等。一般情况下,一个Master节点都会对应多个Slave节点,Master在分配任务时需要知道当前有哪些Slave节点是可以接受自己所发的命令的(Slave节点有可...
阅读全文
摘要:1 概述 为了增大并发性,Yarn采用事件驱动的并发模型,将各种处理逻辑抽象成事件和调度器,将事件的处理过程用状态机表示。什么是状态机? 如果一个对象,其构成为若干个状态,以及触发这些状态发生相互转移的事件,那么此对象称之为状态机。 处理请求作为某种事件发送到系统中,由一个中央调度器传递给对应的...
阅读全文
摘要:1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。 在部署和运行Spark Application的过程中,如果不注意一些小的细节...
阅读全文
摘要:0 机器说明IPRole192.168.1.106NameNode、DataNode、NodeManager、ResourceManager192.168.1.107SecondaryNameNode、NodeManager、DataNode192.168.1.108NodeManager、Data...
阅读全文
摘要:1 概述 目前多数的NoSql数据库本质上都是键值对形式,Redis也不例外。作为缓存数据库的一种,和Memcached相比,有以下几种主要的优点:(1)速度上,Redis要比Memcached快,这是基于一些Benchmarks的测试结果得出的,而且在内存使用上,Redis突破了物理内存限制,可以...
阅读全文
摘要:1硬盘的基本工作原理1.1硬盘部件结构图1.2主要参数术语解释磁头:在与硬盘交换数据的过程 中,读操作远远快于写操作,硬盘厂商开发一种读/写分离磁头。转速(Rotationl Speed):是硬盘内电机主轴的旋转速度,也就是硬盘盘片在一分钟内所能完成的最大转数。硬盘的转速越快,硬盘寻找文件的速度也就越快,相对的硬盘的传输速度也就得到了提高。 目前市场上常见的硬盘转速一般有5400rpm、7200rpm、10000rpm、15000rpm。理论上,转速越快越好。因为较高的转速可缩短硬盘的平均寻道时间和实际读写时间。可是转速越快发热量越大,不利于散热。现在的主流硬盘转速一般为7200rpm以上。至
阅读全文
摘要:1 存储过程 创建用于存储数据元的桶,可以选择数据元所驻留的地区(目前来说,选择东京、新加坡会快些,美国本土更便宜),上传数据元到桶,进行持久化存储。另外,可以对上传的数据元及桶进行访问控制、加密等设置。每个AWS账户可以创建多个用户,用户可以对所拥有的数据进行上述权限控制。 目前可存储的你内容有:(1)多媒体、音乐、图片(2)视频监控文件(3)医疗系统的档案、资料(4)静态网站资料2 管理 通过AWS管理控制台对数据进行控制。AWS控制台类似于EC2的web控制界面,或者通过API接口(Java、.Net)、REST接口编程实现。3 S3功能简述(1)创建桶、删除桶(2)写入、读取、删除数据
阅读全文
摘要:HDFS中的Block状态分析 文件在HDFS里进行读取和存储的时候大都是以block的形式存在和表现。每个文件都可能会有很多个block,每个block又会根据配置文件中的replica的value设置有着多个备份。在NN(NameNode)中,称之为block的这些个东东,在DN(DataNode)中通常叫做replica(都是指的同一种东东)。Block在NN中和DN中随着操作的不同,会有多种状态,这些状态因不同的操作而触发,又因不同的操作而发生转变。下面就分别分析block在NN中和DN中的各种状态以及状态之间的转变。1 DN端的block状态 DN端block状态都保存在DN的内存之
阅读全文

浙公网安备 33010602011771号