随笔分类 -  架构

摘要:来自董飞的回答HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用Facebook's New Realtime Analytics System: HBase to P... 阅读全文
posted @ 2015-06-15 22:52 masic 阅读(430) 评论(0) 推荐(0)
摘要:原文链接什么是SparkApache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。首先,... 阅读全文
posted @ 2015-06-09 17:56 masic 阅读(321) 评论(0) 推荐(0)
摘要:两个帖子: 知乎, Quora@严林 推荐的三篇论文1.Sinfonia: A New Paradigm for Building Scalable Distributed Systems,这篇论文是SOSP2007的Best Paper,阐述了一种构建分布式文件系统的范式方法,个人感觉非常有用。淘... 阅读全文
posted @ 2015-06-01 23:41 masic 阅读(956) 评论(0) 推荐(0)
摘要:(一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别: 其实,我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“安”字,就会... 阅读全文
posted @ 2015-01-02 15:30 masic 阅读(258) 评论(0) 推荐(0)