04 2017 档案

摘要:最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相 阅读全文
posted @ 2017-04-20 12:11 ordi 阅读(205) 评论(0) 推荐(0)
摘要:Spark是继Hadoop之后的下一代分布式内存计算引擎,于2009年诞生于加州大学伯克利分校AMPLab实验室,现在主要由Databricks公司进行维护(公司创始员工均来自AMPLab),根据本人自2014学习Spark的理解,从下面几个方面介绍。 为什么出现Spark? Spark核心是什么? 阅读全文
posted @ 2017-04-20 11:18 ordi 阅读(441) 评论(0) 推荐(0)
摘要:Spark的存储管理 RDD的存放和管理都是由Spark的存储管理模块实现和管理的。本文从架构和功能两个角度对Spark的存储管理模块进行介绍。 架构角度 从架构角度,存储管理模块主要分为以下两层: 通信层:存储管理模块采用的是主从结构来实现通信层,主节点和从节点之间传输控制信息、状态信息。 存储层 阅读全文
posted @ 2017-04-20 09:01 ordi 阅读(205) 评论(0) 推荐(0)
摘要:RDD: Resilient Distributed Dataset 1. Spark RDD is immutable Since the RDD is immutable, splitting a big one to smaller ones, distributing them tovari 阅读全文
posted @ 2017-04-09 11:35 ordi 阅读(190) 评论(0) 推荐(0)
摘要:In any distributed application, it is common to have a driver program that controls theexecution and there will be one or more worker nodes. The drive 阅读全文
posted @ 2017-04-09 11:04 ordi 阅读(159) 评论(0) 推荐(0)
摘要:ubuntu 安装jdk 的两种方式: 1:通过ppa(源) 方式安装. 2:通过官网下载安装包安装. 这里推荐第1种,因为可以通过 apt-get upgrade 方式方便获得jdk的升级 使用ppa/源方式安装 1.添加ppa 2.安装oracle-java-installer jdk7 jdk 阅读全文
posted @ 2017-04-07 17:36 ordi 阅读(182) 评论(0) 推荐(0)
摘要:echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC82... 阅读全文
posted @ 2017-04-07 10:24 ordi 阅读(222) 评论(0) 推荐(0)
摘要:sudo apt-get purge maven maven2 maven3 sudo apt-add-repository ppa:andrei-pozolotin/maven3 sudo apt-get update sudo apt-get install maven3 阅读全文
posted @ 2017-04-06 22:09 ordi 阅读(144) 评论(0) 推荐(0)
摘要:$ sudo update-alternatives --config java Selection Path Priority Status ------------------------------------------------------------ 0 ... 阅读全文
posted @ 2017-04-06 21:10 ordi 阅读(207) 评论(0) 推荐(0)