02 2015 档案

摘要:在最新版本的ODI中,通过使用各种知识模块,可在统一的界面上实现对传统数据库、hive, pig, spark, hdfs等的ETL操作,满足在同一系统或采用相同的方式实现ETL功能。详细的内容可参考:http://www.oracle.com/technetwork/database/bigdat... 阅读全文
posted @ 2015-02-25 15:02 doubletree
摘要:今天apache发布了最新的hbase 1.0.0,下图是版本变迁历史:详情参考:https://blogs.apache.org/hbase/entry/start_of_a_new_era 阅读全文
posted @ 2015-02-24 20:50 doubletree
摘要:在与客户交流前或之后,需要明确的内容有:1. 客户是否已经有做商业智能分析的预算,大概的立项时间是什么时候?2. 此次会见的客户是什么职位,是IT还是业务部门?是否为决策关键人?3. 客户当前有些什么样的业务源系统?4. 客户源系统的数据库环境是怎样的,oracle还是db2或sql server... 阅读全文
posted @ 2015-02-10 11:42 doubletree
摘要:直接从0.14升级到1.0.0,主要变化有:去掉hiveserver 1定义公共的API,比如HiveMetaStoreClient 当然,也需要使用新的beeline cli客户端。不过最值得期待的还是下一个hive版本 1.1.0,将会允许hive在spark上执行。 阅读全文
posted @ 2015-02-05 10:05 doubletree
摘要:Kafka设计的初衷是迅速处理短小的消息,一般10K大小的消息吞吐性能最好(可参见LinkedIn的kafka性能测试)。但有时候,我们需要处理更大的消息,比如XML文档或JSON内容,一个消息差不多有10-100M,这种情况下,Kakfa应该如何处理?针对这个问题,有以下几个建议: 最好的方法是不... 阅读全文
posted @ 2015-02-01 00:10 doubletree