摘要:采用的spark版本为1.1.0scala版本为2.10.4编写scala类文件myactors.scala:package bluejoeimport akka.actor._import com.typesafe.config.ConfigFactoryimport akka.remote.Re...
阅读全文
摘要:在spark-shell中输入范例中的代码:import akka.actor.Actorimport akka.actor.Propsimport akka.event.Logging class MyActor extends Actor { val log = Logging(context...
阅读全文
摘要:http://www.cnblogs.com/hequn/articles/3764630.html当程序的要求达到一台计算机的极限时,我们便需要将程序分布式化,让程序运行在多台计算机上。akka提供了remote actor用来构建分布式应用。一、remote actor1.Actor path ...
阅读全文
摘要:http://hzp.iteye.com/blog/1872664Memcached处理的原子是每一个(key,value)对(以下简称kv对),key会通过一个hash算法转化成hash-key,便于查找、对比以及做到尽可能的散列。同时,memcached用的是一个二级散列,通过一张大hash表来...
阅读全文
摘要:http://blog.csdn.net/a600423444/article/details/8944601一、前言因为近期项目中开始使用Redis,为了更好的理解Redis并应用在适合的业务场景,需要对Redis设计与实现深入的理解。我分析流程是按照从main进入,逐步深入分析Redis的启动流...
阅读全文
摘要:http://www.aboutyun.com/thread-6217-1-1.html1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cl...
阅读全文
摘要:首先准备如下社交图形数据:打开spark-shell;导入相关包:import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDD创建如上graph对象:// Create an RDD ...
阅读全文
摘要:http://www.zhihu.com/question/26568496#answer-12035815Hadoop首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。HDFS,在由普通PC组成的...
阅读全文
摘要:http://www.uml.org.cn/yunjisuan/201212191.aspHama中最关键的就是BSP(Bulk Synchronous Parallel-“大型”同步模型)模型, BSP的概念由Valiant(1990)提出的,“块”同步模型,是一种异步MIMD-DM模型,支持消息...
阅读全文
摘要:先来个普通的数组:scala> var arr=Array(1.0,2,3,4)arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0)可以将它转换成一个Vector:scala> import org.apache.spark.mllib.lin...
阅读全文
摘要:最近遇到几个同事,谈及对主管工作的一些手足无措,我倒是一直没感觉到真有多难,说起诀窍,我想主要还是靠“换位思考”吧!说到底,就是要跳出来,审视自己的角色定位。当然,“换位思考”同样适用于不同岗位的人,这里我主要针对业务主管的岗位说点废话。业务主管,对下带团队,带1个小组,或者带N个小组,对上向老板(...
阅读全文
摘要:按照spark的说法,这里的jsonFile是特殊的文件:Note that the file that is offered as jsonFile is not a typical JSON file. Each line must contain a separate, sel...
阅读全文
摘要:http://lastorder.me/tag/parquet.htmlhttps://blog.twitter.com/2013/dremel-made-simple-with-parquet对于优化『关系型数据库上的分析任务』,列式存储(Columnar Storage)是个比较流行的技术. 这...
阅读全文
摘要:http://blog.csdn.net/dc_726/article/details/41777661为了优化MapReduce及MR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile,以及配合Impala实现出Google ...
阅读全文
摘要:spark带了一个NetworkWordCount测试程序,用以统计来自某TCP连接的单词输入:/usr/local/spark/bin/run-example streaming.NetworkWordCount localhost 9999再启动netcat: nc -lk 99...
阅读全文
摘要:http://www.aboutyun.com/thread-6855-1-1.html个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm...
阅读全文
摘要:Apache Spark探秘:Spark Shuffle实现http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Sp...
阅读全文
摘要:写了一个简单的语句,还没有优化:scala> sc. | textFile("/etc/profile"). | flatMap((s:String)=>s.split("\\s")). | map(_.toUpperCase). | map((s:S...
阅读全文
摘要:http://www.opstool.com/article/266服务器多了,有一个烦恼就是如何批量快速操作一堆服务器。这里我推荐一下经常使用利器pssh。这个工具给我的工作带来了莫大的帮助。简介pssh是一款开源的软件,使用python实现。用于批量ssh操作大批量机器。pssh的项目地址htt...
阅读全文
摘要:下载scala 2.11.5安装eclipse LUNA版本安装scala IDE插件:http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site 还可以安装jd-gui,用以反编译生成的class文件,参见h...
阅读全文
摘要:先来个正常的:scala> (0 to 5).map((x:Int)=>{println(x);x*2}).foreach(println)0123450246810再来个stream版的:scala> (0 to 5).toStream.map((x:Int)=>{println(...
阅读全文