09 2017 档案

摘要:ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation 阅读全文
posted @ 2017-09-26 16:11 999.感冒灵 阅读(31068) 评论(1) 推荐(3)
摘要:hive是Apache的一个顶级项目,由facebook团队开发,基于java开发面向分析师或BI等人员的数据工具(常用作数据仓库),它将hdfs文件组织成表,使用hive-sql调用mapreduce任务完成计算。即使你不知道它的内部机制也不懂java,却不影响你使用。 这里主要以CLI使用为主, 阅读全文
posted @ 2017-09-14 15:36 999.感冒灵 阅读(1038) 评论(0) 推荐(0)
摘要:上次我们在ubantu上安装了hadoop,那我们现在再进一步,开始我们的学习之旅--hive板块吧! 第一步:准备! 软件: I、一个搭建好的hadoop环境 II、hive的bin文件(前往apache官网,参考链接:http://www.apache.org/dyn/closer.cgi/hi 阅读全文
posted @ 2017-09-07 17:56 999.感冒灵 阅读(404) 评论(0) 推荐(0)