01 2017 档案
摘要:本文地址:http://www.cnblogs.com/qiaoyihang/ 一、Ganglia是什么?Ganglia主要用来解决什么样的问题? ganglia是一个可扩展的分布式监控系统,用于监控和显示分布式集群节点的状态信息,比如CPU、内存、磁盘利用率、I/O负载、网络流量情况等方面的数据,
阅读全文
摘要:本文地址:http://www.cnblogs.com/qiaoyihang/p/6293402.html (一)Namenode的目录结构 HDFS进行初次格式化之后将会在$dfs.namenode.name.dir/current目录下生成一系列文件: VERSION 文件的内容是一些HDFS的
阅读全文
摘要:本文地址:http://www.cnblogs.com/qiaoyihang/p/6290467.html 引用:http://blog.csdn.net/yeruby/article/details/51167868 Ambari简介 ambari是一个拥有集群自动化安装,中心化管理,集群监控,报
阅读全文
摘要:本文地址:http://www.cnblogs.com/qiaoyihang/p/6270165.html mysql 本身并没有 split 函数,但是,我们实现累死功能的自定义函数是非常简单的 创建函数的语法 用户自定义函数是拓展mysql函数的一种方式,它用起来和mysql本身自带的函数没有什
阅读全文
摘要:本文地址:http://www.cnblogs.com/qiaoyihang/p/6262806.html 传统的行式数据库将一个个完整的数据行存储在数据页中。这种方式在大数据量查询的时候会出现以下问题 1、在没有索引的情况下,会把一行全部查出来,查询会使用大量IO 2、虽然建立索引和物化视图可以可
阅读全文
摘要:本文地址:http://www.cnblogs.com/qiaoyihang/p/6259893.html 集群规划情况: 搭建步骤: 第一步:配置conf/regionservers 第二部:配置 新增 backup-masters 第三部 配置 hbase-site.xml 第四部:配置hbas
阅读全文
摘要:本文地址:http://www.cnblogs.com/qiaoyihang/p/6250684.html
阅读全文
摘要:续上一篇,解决了上一篇中的问题后,启动成功,但是在数据库中操作会存在一些问题,一些操作报一下异常: 解决方案:
阅读全文
摘要:一般有一下集中可能 1.可能是/usr/local/mysql/data/rekfan.pid文件没有写的权限解决方法 :给予权限,执行 “chown -R mysql:mysql /var/data” “chmod -R 755 /usr/local/mysql/data” 然后重新启动mysql
阅读全文
摘要:原文:http://www.cnblogs.com/zhangminghui/p/4113160.html 引言 MySQL本身提供了内置函数,这些函数的存在给我们日常的开发和数据操作带来了很大的便利,比如我前面提到过的聚合函数SUM()、AVG()以及日期时间函数等等,可是我们总会出现其他的需求:
阅读全文
摘要:一、join优化 做join之前对数据进行预处理,减少参加join的数据量,把数据量少的表放入内存中,制作map端的join 应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边
阅读全文
摘要:由facebook 开源用以帮用户解决海量数据etl,构建于hadoop的 数据仓库。 使用hql作为查询接口 使用hdfs作为底层存储 使用mr作为执行层 1、为什么使用hive? 1)在大数据的挑战下,传统的数据库不堪负重 2)使用mr编程繁琐 3)人员成本考虑 2、hive和hbase的区别
阅读全文
摘要:HBase定义 HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利
阅读全文