随笔分类 -  hive

摘要:一、ETL介绍: 数据抽取:把不同的数据源数据抓取过来,存到某个地方 数据清洗:过滤那些不符合要求的数据或者修正数据之后再进行抽取 不完整的数据:比如数据里一些应该有的信息缺失,需要补全后再写入数据仓库 错误的数据:比如字符串数据后面有一个回车操作、日期格式不正确、日期越界等,需要修正之后再抽取 重 阅读全文
posted @ 2018-02-10 22:49 小宁哥 阅读(2473) 评论(2) 推荐(0)
摘要:hive依赖hadoop 需要的软件包:hive-0.13.1-cdh5.3.6.tar.gz 、hadoop-2.5.0-cdh5.3.6.tar.gz 1、hadoop的安装步骤请访问: http://www.cnblogs.com/xningge/articles/8433297.html 2 阅读全文
posted @ 2018-02-08 23:29 小宁哥 阅读(9724) 评论(0) 推荐(0)
摘要:在hive命令行创建表时报错: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreExcept 阅读全文
posted @ 2018-02-08 19:17 小宁哥 阅读(476) 评论(0) 推荐(0)