一般有一下集中可能 1.可能是/usr/local/mysql/data/rekfan.pid文件没有写的权限解决方法 :给予权限,执行 “chown -R mysql:mysql /var/data” “chmod -R 755 /usr/local/mysql/data” 然后重新启动mysql Read More
原文:http://www.cnblogs.com/zhangminghui/p/4113160.html 引言 MySQL本身提供了内置函数,这些函数的存在给我们日常的开发和数据操作带来了很大的便利,比如我前面提到过的聚合函数SUM()、AVG()以及日期时间函数等等,可是我们总会出现其他的需求: Read More
一、join优化 做join之前对数据进行预处理,减少参加join的数据量,把数据量少的表放入内存中,制作map端的join 应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边 Read More
由facebook 开源用以帮用户解决海量数据etl,构建于hadoop的 数据仓库。 使用hql作为查询接口 使用hdfs作为底层存储 使用mr作为执行层 1、为什么使用hive? 1)在大数据的挑战下,传统的数据库不堪负重 2)使用mr编程繁琐 3)人员成本考虑 2、hive和hbase的区别 Read More
HBase定义 HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利 Read More
先说下hadoop 内置工作流的不足 (1)支持job单一 (2)硬编码 (3)无可视化 (4)无调度机制 (5)无容错机制 在这种情况下Azkaban就出现了 1)Azkaban是什么 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作 Read More
学习 hadoop,必不可少的就是编写 MapReduce 程序。当然,对于简单的分析程序,我们只需一个 MapReduce 任务就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行分析计算。 本课程我们主要学习多个 Job 或者多个 MapReduce 的 Read More
group by 中出现的字段不能再select 后面单独显示,必须配合函数使用 select count(a.id) from (select id,collect_set(time) as t from t_action_login where time<='20150906' group by Read More
1、数据库连接异常 执行数据导出 ip地址必须是真实IP ,不能是localhost,127.0.0.1 2、 同步的为mysql结构化数据,对数据格式有固定的要求。所以说当集群文件中数据格式与mysql表中存在冲突时,会导致数据传输异常。 问题解决:1.查看hdfs中文件数据是否与mysql表中对 Read More
Sqoop与HDFS结合 下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出。 Sqoop import 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示。 我们来分析一下 Sqoop 数据导入流程,首先用户输入一个 Sqoop import 命令,Sqoop 会 Read More