摘要:
Hive是什么?就从这儿开始学习。。。。 Hive是建立在Hadoop hdfs上的数据仓库基础架构。 Hive可以用来数据抽取转换加载(ETL)。 Hive定义了简单的类SQL查询语句,称为HQL。 Hive是SQL解析引擎,它将SQL语句转移成M/R Job,然后在Hadoop上执行。 Hive 阅读全文
posted @ 2016-04-01 14:48
麻雀虽小五脏俱全
阅读(1533)
评论(0)
推荐(0)
摘要:
1、使用场景:实时查询交互 说说概念性的东西,方便今后更加深入的理解。 HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架( 阅读全文
posted @ 2016-04-01 14:22
麻雀虽小五脏俱全
阅读(372)
评论(0)
推荐(0)
摘要:
还是hadoop专有名词进行说明。 Hadoop框架中最核心设计就是:HDFS和MapReduce.还有yarn HDFS提供了海量数据的存储。(分布式文件系统) MapReduce提供了对数据的计算.(分布式计算框架) Hadoop的集群主要由 NameNode,DataNode,Secondar 阅读全文
posted @ 2016-04-01 14:07
麻雀虽小五脏俱全
阅读(286)
评论(0)
推荐(0)
摘要:
最近一个项目,关于大数据的改造项目,底层选择Impala还是sparkSQL呢? 最后选择Impala.这样就开启了我的Impala学习之旅。我大部分负责Imapa接口开发工作。 我是控制不住的想整个都了解和学习。所有还在impala控制台各种测试和学习。差不多一两天就熟悉了基本的命令。 开发之前需 阅读全文
posted @ 2016-04-01 13:19
麻雀虽小五脏俱全
阅读(392)
评论(0)
推荐(0)
摘要:
今天遇到kafka发送消息的时候,一直报Kafka“Failed to send messages after 3 tries”错误,根据网上找问题,修改各种配置参数,各种重启,还是解决不了问题。 郁闷的关键在于 ,kafka装在四台机器上面,修改参数,然后停止重启各种不方便。 最后发现是因为同事昨 阅读全文
posted @ 2016-04-01 13:06
麻雀虽小五脏俱全
阅读(325)
评论(0)
推荐(0)

浙公网安备 33010602011771号