double_kill

2018年1月15日

摘要： ETL实践--Spark做数据清洗上篇博客，说的是用hive代替kettle的表关联。是为了提高效率。本文要说的spark就不光是为了效率的问题。 1、用spark的原因（如果是一个sql能搞定的关联操作，可以直接用kettle导原始数据到hive，用hive视图做关联直接给kylin提供数据阅读全文

posted @ 2018-01-15 10:16 double_kill 阅读(14005) 评论(0) 推荐(2)

2018年1月6日

kettle-数据源配置化-开发、生产采用不同配置

摘要：数据etl常用工具kettle。 1、说明： kettle-数据源配置化：是指kettle的数据源连接信息全部或者部分从配置文件中读取（如果是数据库的资源库，那么资源库也可以配置化）。 2、优点： 1、这样程序本身就和kettle的业务解绑了，开发、生产采用不同配置；每次开发完成就可以直接导入线上，阅读全文

posted @ 2018-01-06 17:14 double_kill 阅读(4220) 评论(0) 推荐(0)

2017年12月29日

大数据常用框架特点

摘要：一、大数据框架： Impala：hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化，并且有的语句超过内存会报错。 Spark：各种格式、各种计算（机器学习、图形计算）、可sql、可代码处理、支持scala/java/pytho 阅读全文

posted @ 2017-12-29 11:46 double_kill 阅读(4607) 评论(0) 推荐(1)

2017年12月28日

一、 kettle开发、上线常见问题以及防错规范步骤

摘要：此篇说明对应的kettle版本是6.1，实际使用时7.x应该也是一样的。一、 kettle开发流程（规范步骤，防止出错） (一) Kettle设置检查如果不加一下配置项，数据转换后中文会出现乱码，很难处理。本地连接资源库：配置项 defaultFetchSize 500 useCursorFe 阅读全文

posted @ 2017-12-28 12:34 double_kill 阅读(2765) 评论(0) 推荐(3)

公告