摘要: Hive是什么?就从这儿开始学习。。。。 Hive是建立在Hadoop hdfs上的数据仓库基础架构。 Hive可以用来数据抽取转换加载(ETL)。 Hive定义了简单的类SQL查询语句,称为HQL。 Hive是SQL解析引擎,它将SQL语句转移成M/R Job,然后在Hadoop上执行。 Hive 阅读全文
posted @ 2016-04-01 14:48 麻雀虽小五脏俱全 阅读(1533) 评论(0) 推荐(0)
摘要: 1、使用场景:实时查询交互 说说概念性的东西,方便今后更加深入的理解。 HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架( 阅读全文
posted @ 2016-04-01 14:22 麻雀虽小五脏俱全 阅读(372) 评论(0) 推荐(0)
摘要: 还是hadoop专有名词进行说明。 Hadoop框架中最核心设计就是:HDFS和MapReduce.还有yarn HDFS提供了海量数据的存储。(分布式文件系统) MapReduce提供了对数据的计算.(分布式计算框架) Hadoop的集群主要由 NameNode,DataNode,Secondar 阅读全文
posted @ 2016-04-01 14:07 麻雀虽小五脏俱全 阅读(286) 评论(0) 推荐(0)
摘要: 最近一个项目,关于大数据的改造项目,底层选择Impala还是sparkSQL呢? 最后选择Impala.这样就开启了我的Impala学习之旅。我大部分负责Imapa接口开发工作。 我是控制不住的想整个都了解和学习。所有还在impala控制台各种测试和学习。差不多一两天就熟悉了基本的命令。 开发之前需 阅读全文
posted @ 2016-04-01 13:19 麻雀虽小五脏俱全 阅读(392) 评论(0) 推荐(0)
摘要: 今天遇到kafka发送消息的时候,一直报Kafka“Failed to send messages after 3 tries”错误,根据网上找问题,修改各种配置参数,各种重启,还是解决不了问题。 郁闷的关键在于 ,kafka装在四台机器上面,修改参数,然后停止重启各种不方便。 最后发现是因为同事昨 阅读全文
posted @ 2016-04-01 13:06 麻雀虽小五脏俱全 阅读(325) 评论(0) 推荐(0)