ETL和Kettle
摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。 一.什么是kettleKettle是一款国外开源的ETL工具,纯java编写,可以在Window、Li
阅读全文
HBase中的RowKey
摘要:一、什么是RowKey? 1.增删改查的过程中RowKey就充当了主键的作用,它和众多的nosql数据库一样,可以唯一的标识一行记录。2.RowKey行键 (RowKey)可以是任意字符串,只要保证这个字符串不重复就可以了。3.由于数据按照RowKey的字典序(byte order)排序存储,因此H
阅读全文
Hive的介绍
摘要:一、什么是Hive Hive是建立在 Hadoop 上的数据仓库基础构架。 它提供了一系列的工具,可以用来进行数据提取,转化,加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive 定义了
阅读全文