09 2017 档案
摘要:ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation
阅读全文
摘要:hive是Apache的一个顶级项目,由facebook团队开发,基于java开发面向分析师或BI等人员的数据工具(常用作数据仓库),它将hdfs文件组织成表,使用hive-sql调用mapreduce任务完成计算。即使你不知道它的内部机制也不懂java,却不影响你使用。 这里主要以CLI使用为主,
阅读全文
摘要:上次我们在ubantu上安装了hadoop,那我们现在再进一步,开始我们的学习之旅--hive板块吧! 第一步:准备! 软件: I、一个搭建好的hadoop环境 II、hive的bin文件(前往apache官网,参考链接:http://www.apache.org/dyn/closer.cgi/hi
阅读全文

浙公网安备 33010602011771号