大数据运维 - 博客园

HBase集群备份方法--Replication机制

摘要： 1.简介 HBase备份的方法在HBase集群备份方法文章中已经有些介绍，但是这些方法都不是HBase本身的特性在支持，都是通过MR计算框架结合HBase客户端的方式，或者直接拷贝HBase的底层hdfs数据的方式进行备份的，但从操作上来说也比较繁琐复杂，数据完整性和及时性上也做的并不是很好。本文阅读全文

posted @ 2019-08-06 09:47 大数据运维阅读(2207) 评论(0) 推荐(0)

浏览器缓存知识小结及应用

摘要：浏览器缓存，也就是客户端缓存，既是网页性能优化里面静态资源相关优化的一大利器，也是无数web开发人员在工作过程不可避免的一大问题，所以在产品开发的时候我们总是想办法避免缓存产生，而在产品发布之时又在想策略管理缓存提升网页的访问速度。了解浏览器的缓存命中原理，是开发web应用的基础，本文着眼于此，学习阅读全文

posted @ 2019-07-29 18:02 大数据运维阅读(715) 评论(0) 推荐(1)

CentOS7使用firewalld打开关闭防火墙与端口

摘要： 1、firewalld的基本使用启动： systemctl start firewalld 关闭： systemctl stop firewalld 查看状态： systemctl status firewalld 开机禁用： systemctl disable firewalld 开机启用：阅读全文

posted @ 2019-06-12 15:08 大数据运维阅读(195) 评论(0) 推荐(0)

MySQL 千万级数据量根据（索引）优化查询速度

摘要：一、索引的作用索引通俗来讲就相当于书的目录，当我们根据条件查询的时候，没有索引，便需要全表扫描，数据量少还可以，一旦数据量超过百万甚至千万，一条查询sql执行往往需要几十秒甚至更多，5秒以上就已经让人难以忍受了。提升查询速度的方向一是提升硬件(内存、cpu、硬盘)，二是在软件上优化（加索引、优化阅读全文

posted @ 2019-06-04 09:43 大数据运维阅读(10332) 评论(0) 推荐(1)

HBase统计表行数(RowCount)的四种方法

摘要：背景：对于其他数据存储系统来说，统计表的行数是再基本不过的操作了，一般实现都非常简单；但对于HBase这种key-value存储结构的列式数据库，统计 RowCount 的方法却有好几种不同的花样，并且执行效率差别巨大！下面来研究下吧~ 测试集群：HBase1.2.0 - CDH5.13.0 四台阅读全文

posted @ 2019-05-31 13:50 大数据运维阅读(18321) 评论(0) 推荐(1)

hadoop常见错误及解决办法整理

摘要： 1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。修改办法：修阅读全文

posted @ 2019-05-29 17:33 大数据运维阅读(5356) 评论(0) 推荐(0)

HBase最佳实践－内存规划

摘要：线上HBase集群应该如何进行参数配置？这其实是很多HBase初学者在实践环节都可能会遇到的问题，有些人会选择默认配置，有些人会选择其他公司的推荐配置；诚然，这样的参数配置在大多数情况下都能正常工作，但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验，针对不同应用场景，对多种工作模式下阅读全文

posted @ 2019-05-27 11:30 大数据运维阅读(664) 评论(0) 推荐(0)

HBase 数据迁移方案介绍

摘要：一、前言 HBase数据迁移是很常见的操作，目前业界主要的迁移方式主要分为以下几类：图1.HBase数据迁移方案从上面图中可看出，目前的方案主要有四类，Hadoop层有一类，HBase层有三类。下面分别介绍一下。二、Hadoop层数据迁移 2.1 方案介绍 Hadoop层的数据迁移主要用到Di 阅读全文

posted @ 2019-04-29 10:12 大数据运维阅读(548) 评论(0) 推荐(0)

HBase Master HA高可用

摘要： HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行。所以这里要配置HBase高可用的话，只需要启动两个HMaster，让Zookeeper自己去选择一个Master Acitve。 HBase配阅读全文

posted @ 2019-04-28 16:49 大数据运维阅读(1081) 评论(0) 推荐(0)

Hadoop2.7.7_HA高可用部署

摘要： 1. Hadoop的HA机制前言：正式引入HA机制是从hadoop2.0开始，之前的版本中没有HA机制 1.1. HA的运作机制（1）hadoop-HA集群运作机制介绍所谓HA，即高可用（7*24小时不中断服务）实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的H 阅读全文

posted @ 2019-04-28 16:03 大数据运维阅读(2007) 评论(0) 推荐(0)