上一页 1 ··· 234 235 236 237 238 239 240 241 242 ··· 274 下一页
摘要: 介绍 我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io NDPmedia在2014年3月就开始使用, 见链接: http://blog.csdn.net/chenyi8888/arti 阅读全文
posted @ 2017-03-02 15:35 bonelee 阅读(2111) 评论(0) 推荐(0)
摘要: 五、Tindex 数果智能根据开源的方案自研了一套数据存储的解决方案,该方案的索引层通过改造Lucene实现,数据查询和索引写入框架通过扩展Druid实现。既保证了数据的实时性和指标自由定义的问题,又能满足大数据量秒级查询的需求,系统架构如下图,基本实现了文章开头提出的几个目标。 (点击放大图像) 阅读全文
posted @ 2017-03-02 15:07 bonelee 阅读(2259) 评论(0) 推荐(1)
摘要: 转自:http://www.infoq.com/cn/articles/trillion-log-and-data-storage-query-techniques?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_con 阅读全文
posted @ 2017-03-02 15:05 bonelee 阅读(3927) 评论(0) 推荐(0)
摘要: 首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。 其实默认为3个副本已经够用了,设置太多也没什么用。 一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文 阅读全文
posted @ 2017-03-01 17:46 bonelee 阅读(10706) 评论(1) 推荐(0)
摘要: 《实时分析系统(HIVE/HBASE/IMPALA)浅析》《MPP DB 是 大数据实时分析系统 未来的选择吗?》《一套数据,多种引擎(impala/Hive/kylin)》《一套数据,多种引擎续 两种数据格式(Parquet/ORCfile)浅析》有兴趣可以看看。 阅读全文
posted @ 2017-03-01 17:14 bonelee 阅读(224) 评论(0) 推荐(0)
摘要: 转自:http://data.qq.com/article?id=817 三、Hermes设计概要 架构描述 系统核心进程均采用分散化设计,根据业务发展需求,可随意扩缩容机器; 周期性数据直接通过tdw处理落地到分布式文件系统; 实时数据加载采用先落地本地磁盘,最终落地到分布式文件系统,最终都由调度 阅读全文
posted @ 2017-03-01 16:57 bonelee 阅读(854) 评论(2) 推荐(0)
摘要: 对于hbase当前noSql数据库的一种,最常见的应用场景就是采集的网页数据的存储,由于是key-value型数据库,可以再扩展到各种key-value应用场景,如日志信息的存储,对于内容信息不需要完全结构化出来的类CMS应用等。注意hbase针对的仍然是OLTP应用为主。 对于hive主要针对的是 阅读全文
posted @ 2017-03-01 11:54 bonelee 阅读(7303) 评论(0) 推荐(0)
摘要: Amazon Redshift 是一种快速且完全托管的 PB 级数据仓库,使您可以使用现有的商业智能工具经济高效地轻松分析您的所有数据。从最低 0.25 USD 每小时 (不承担任何义务) 直到每年每 TB 1,000 USD (PB 级),成本不到传统解决方案的十分之一。客户通常进行 3 倍压缩, 阅读全文
posted @ 2017-03-01 11:35 bonelee 阅读(4294) 评论(0) 推荐(0)
摘要: 为什么会有HybridDB的诞生?它经历了怎样的研发历程?它的应用场景和情况是怎样的?带着这些问题,InfoQ对阿里云的数据库专家兼Postgres中国社区/中国用户会主席萧少聪先生进行了采访,以下文字整理自采访文稿。 业界早期使用数据时,尤其是OLTP场景下,通常选择非分布式的关系型数据库,如My 阅读全文
posted @ 2017-03-01 11:24 bonelee 阅读(8353) 评论(0) 推荐(0)
摘要: 12 月 9 日,阿里云宣布数据库产品 HybridDB 正式商业化。 HybridDB(ApsaraDB HybridDB)是一款在线 MPP 大规模并行处理数据仓库的服务。它基于 Pivotal 公司的开源数据库项目 Greenplum Database 开发,并由阿里云数据库团队在云计算架构下 阅读全文
posted @ 2017-03-01 11:00 bonelee 阅读(2412) 评论(0) 推荐(0)
上一页 1 ··· 234 235 236 237 238 239 240 241 242 ··· 274 下一页