2015 年 2月随笔档案 - doubletree

oracle data integrator与大数据平台的集成

摘要：在最新版本的ODI中，通过使用各种知识模块，可在统一的界面上实现对传统数据库、hive, pig, spark, hdfs等的ETL操作，满足在同一系统或采用相同的方式实现ETL功能。详细的内容可参考：http://www.oracle.com/technetwork/database/bigdat... 阅读全文

posted @ 2015-02-25 15:02 doubletree

apache hbase 发布1.0.0版本

摘要：今天apache发布了最新的hbase 1.0.0，下图是版本变迁历史：详情参考：https://blogs.apache.org/hbase/entry/start_of_a_new_era 阅读全文

posted @ 2015-02-24 20:50 doubletree

以前整理的做某数据产品售前工程师的能力要求

摘要：在与客户交流前或之后，需要明确的内容有：1. 客户是否已经有做商业智能分析的预算，大概的立项时间是什么时候？2. 此次会见的客户是什么职位，是IT还是业务部门？是否为决策关键人？3. 客户当前有些什么样的业务源系统？4. 客户源系统的数据库环境是怎样的，oracle还是db2或sql server... 阅读全文

posted @ 2015-02-10 11:42 doubletree

apache hive 1.0.0发布

摘要：直接从0.14升级到1.0.0，主要变化有：去掉hiveserver 1定义公共的API，比如HiveMetaStoreClient 当然，也需要使用新的beeline cli客户端。不过最值得期待的还是下一个hive版本 1.1.0，将会允许hive在spark上执行。阅读全文

posted @ 2015-02-05 10:05 doubletree

kafka中处理超大消息的一些考虑

摘要：Kafka设计的初衷是迅速处理短小的消息，一般10K大小的消息吞吐性能最好（可参见LinkedIn的kafka性能测试）。但有时候，我们需要处理更大的消息，比如XML文档或JSON内容，一个消息差不多有10-100M，这种情况下，Kakfa应该如何处理？针对这个问题，有以下几个建议：最好的方法是不... 阅读全文

posted @ 2015-02-01 00:10 doubletree

doubletree

02 2015 档案

公告