摘要:最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相 阅读全文
posted @ 2018-02-21 10:11 shishanyuan 阅读(1052) 评论(1) 推荐(0) 编辑
摘要:Spark SQL是Spark最新和技术最为复杂的组件之一。它支持SQL查询和新的DataFrame API。Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言特性(例如Scala的模式匹配和quasiquotes)来构建可扩展查询优化器。 我们最近发布了一篇关于S 阅读全文
posted @ 2018-02-21 09:03 shishanyuan 阅读(6163) 评论(0) 推荐(0) 编辑
摘要:Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据,因此也更依赖JV 阅读全文
posted @ 2018-02-21 09:03 shishanyuan 阅读(5055) 评论(0) 推荐(2) 编辑