10 2021 档案

摘要:Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台, YARN的重要概念 yarn并不清楚用户提交的程序的运行机制 yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源) yarn中的主管角色叫ResourceManager ya 阅读全文
posted @ 2021-10-20 20:14 cos晓风残月 阅读(154) 评论(0) 推荐(0)
摘要:分布式文件系统: 统一管理分布在集群上的文件系统 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点概念:文件切块, 阅读全文
posted @ 2021-10-20 20:01 cos晓风残月 阅读(272) 评论(0) 推荐(0)
摘要:前几天生产的Redis突然挂掉了,之前都没有太注意过Redis那边的使用情况,这次Redis挂掉重启后,发现在那台服务器上,Redis占用了足足30G的运行内存,这才意识到Redis可能出现了一点问题,然后开始了错误排查过程。 错误排查 由于Redis是基于内存的数据库,所以当出现运行内存过大的情况 阅读全文
posted @ 2021-10-13 21:20 cos晓风残月 阅读(316) 评论(0) 推荐(0)
摘要:Flume最早是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume特性 1.提供上下文路由特征 2.Flume的管道是基于事务,保证了数据在传送和接收时的一致性 3.Flume是可靠的,容错性高的,可升级的,易管理的,并且可定制的 4.Flume可用将 阅读全文
posted @ 2021-10-13 20:25 cos晓风残月 阅读(740) 评论(0) 推荐(0)
摘要:Spark基础 Spark VS Hadoop Hadoop Spark 类型 分布式基础平台,包含计算,存储,调度 分布式计算工具 场景 大规模数据集上的批处理 迭代计算,交互式计算,流计算 价格 对机器要求低,便宜 对内存有要求,相对较贵 编程范式 Map+Reduce,API较为底层,算法适应 阅读全文
posted @ 2021-10-13 20:01 cos晓风残月 阅读(554) 评论(0) 推荐(0)
摘要:数据库事务的四大特性 原子性A 事务是最小的执行单位,不允许分割。事务的原子性确保动作要么全部完成,要么完全不起作用 一致性C 执行事务前后,数据保持一致,多个事务对同一个数据读取的结果是相同的 隔离性I 并发访问数据库时,一个用户的事务不被其他事务所干扰,各并发事务之间数据库是独立的 持久性D一个 阅读全文
posted @ 2021-10-02 12:49 cos晓风残月 阅读(83) 评论(0) 推荐(0)
摘要:MySQL基本架构 Server层包括连接器、查询缓存、分析器、优化器、执行器等,所有跨存储引擎的功能都在这一层实现。 存储引擎层负责数据的存储和提取。其架构模式是插件式的,支持InnoDB(5.5后成为默认存储引擎)、MyISAM、Memory等多个存储引擎。 Server层 连接器 负责用户登录 阅读全文
posted @ 2021-10-02 12:49 cos晓风残月 阅读(459) 评论(0) 推荐(0)
摘要:MySQL优化 MySQL优化分为以下几个大类: SQL调优 事务优化 表结构优化 使用缓存和NoSQL数据库方式存储,如MongoDB/Memcached/Redis来缓解高并发下的数据库查询的压力 减少数据库操作次数,尽量使用数据库访问驱动的批处理方法 不常使用的数据迁移备份,避免每次都在海量数 阅读全文
posted @ 2021-10-02 12:49 cos晓风残月 阅读(126) 评论(0) 推荐(0)