Big Data - 随笔分类 - doubletree

data warehouse 1.0 vs 2.0

摘要：data warehouse 1.01. EDW goal, separate data marts reqlity2. batch oriented etl3. IT driven BI - dashboards & reports4. Human-based incitesdata wareho... 阅读全文

posted @ 2015-05-21 12:13 doubletree

客户视角：Oracle ETL工具ODI

摘要：数据集成已成为企业在追求市场份额中的关键技术组件，与依靠手工编码的方式不同，越来越多的企业选择完整的数据集成解决方案来支持其IT战略，从大数据分析到云平台的集成。Dao Research最近进行的一项研究，比较全球领先的几个数据集成解决方案之间的差异，及这些产品技术对现实企业的影响。他们采访了IBM... 阅读全文

posted @ 2015-04-21 17:29 doubletree

转：甲骨文发布大数据解决方案含最新版NoSQL数据库

摘要：原文出处: http://www.searchdatabase.com.cn/showcontent_88247.htm以下是部分节选：最新发布的大数据创新成果包括： Oracle Big Data Discovery是 “可视化的Hadoop”，也是面向大数据洞察的，集发现、探索、转... 阅读全文

posted @ 2015-03-20 16:19 doubletree

apache hbase 发布1.0.0版本

摘要：今天apache发布了最新的hbase 1.0.0，下图是版本变迁历史：详情参考：https://blogs.apache.org/hbase/entry/start_of_a_new_era 阅读全文

posted @ 2015-02-24 20:50 doubletree

apache hive 1.0.0发布

摘要：直接从0.14升级到1.0.0，主要变化有：去掉hiveserver 1定义公共的API，比如HiveMetaStoreClient 当然，也需要使用新的beeline cli客户端。不过最值得期待的还是下一个hive版本 1.1.0，将会允许hive在spark上执行。阅读全文

posted @ 2015-02-05 10:05 doubletree

kafka中处理超大消息的一些考虑

摘要：Kafka设计的初衷是迅速处理短小的消息，一般10K大小的消息吞吐性能最好（可参见LinkedIn的kafka性能测试）。但有时候，我们需要处理更大的消息，比如XML文档或JSON内容，一个消息差不多有10-100M，这种情况下，Kakfa应该如何处理？针对这个问题，有以下几个建议：最好的方法是不... 阅读全文

posted @ 2015-02-01 00:10 doubletree

大数据实践：ODI 和 Twitter (二)

摘要：大数据实践：ODI和Twitter(二) 在前面的文章中，我们已经使用flume将数据从twitter抓取到Hive中，现在我们来看看ODI（Oracle Data Integrator）如何在HIVE表中进行逆向工程，打开HIVE模型，然后在逆向工程中选择“新的数据存储”及待逆向的对象，如下： ... 阅读全文

posted @ 2015-01-11 22:43 doubletree

大数据实践：ODI 和 Twitter (一)

摘要：本文利用twitter做为数据源，介绍使用Oracle大数据平台及Oralce Data Integrator工具，完成从twitter抽取数据，在hadoop平台上处理数据，并最终加载到oracle数据库。数据集成分为三个阶段：获取、整理、分析和决策。本文从实际出发，讲述大数据处理的真实案例，... 阅读全文

posted @ 2015-01-09 18:17 doubletree

doubletree

随笔分类 - Big Data

公告