会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
double_kill
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
2018年1月15日
ETL实践--Spark做数据清洗
摘要: ETL实践--Spark做数据清洗 上篇博客,说的是用hive代替kettle的表关联。是为了提高效率。 本文要说的spark就不光是为了效率的问题。 1、用spark的原因 (如果是一个sql能搞定的关联操作,可以直接用kettle导原始数据到hive,用hive视图做关联直接给kylin提供数据
阅读全文
posted @ 2018-01-15 10:16 double_kill
阅读(13947)
评论(0)
推荐(2)
2018年1月6日
kettle-数据源配置化-开发、生产采用不同配置
摘要: 数据etl常用工具kettle。 1、说明: kettle-数据源配置化:是指kettle的数据源连接信息全部或者部分从配置文件中读取(如果是数据库的资源库,那么资源库也可以配置化)。 2、优点: 1、这样程序本身就和kettle的业务解绑了,开发、生产采用不同配置;每次开发完成就可以直接导入线上,
阅读全文
posted @ 2018-01-06 17:14 double_kill
阅读(4191)
评论(0)
推荐(0)
2017年12月29日
大数据 常用框架特点
摘要: 一、大数据框架: Impala:hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。 Spark:各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/pytho
阅读全文
posted @ 2017-12-29 11:46 double_kill
阅读(4583)
评论(0)
推荐(1)
2017年12月28日
一、 kettle开发、上线常见问题以及防错规范步骤
摘要: 此篇说明对应的kettle版本是6.1,实际使用时7.x应该也是一样的。 一、 kettle开发流程(规范步骤,防止出错) (一) Kettle设置检查 如果不加一下配置项,数据转换后中文会出现乱码,很难处理。 本地连接资源库:配置项 defaultFetchSize 500 useCursorFe
阅读全文
posted @ 2017-12-28 12:34 double_kill
阅读(2739)
评论(0)
推荐(3)
上一页
1
2
3
公告