03 2015 档案

spark下测试akka的分布式通讯功能
摘要:采用的spark版本为1.1.0scala版本为2.10.4编写scala类文件myactors.scala:package bluejoeimport akka.actor._import com.typesafe.config.ConfigFactoryimport akka.remote.Re... 阅读全文

posted @ 2015-03-29 21:38 白乔 阅读(287) 评论(0) 推荐(0)

akka创建actor时报错:IllegalArgumentException: no matching constructor found on class $iwC$$iwC$$iwC$$iwC$
摘要:在spark-shell中输入范例中的代码:import akka.actor.Actorimport akka.actor.Propsimport akka.event.Logging class MyActor extends Actor { val log = Logging(context... 阅读全文

posted @ 2015-03-28 22:09 白乔 阅读(849) 评论(0) 推荐(0)

akka构建简单分布式应用
摘要:http://www.cnblogs.com/hequn/articles/3764630.html当程序的要求达到一台计算机的极限时,我们便需要将程序分布式化,让程序运行在多台计算机上。akka提供了remote actor用来构建分布式应用。一、remote actor1.Actor path ... 阅读全文

posted @ 2015-03-26 18:06 白乔 阅读(373) 评论(0) 推荐(0)

Memcached 工作原理
摘要:http://hzp.iteye.com/blog/1872664Memcached处理的原子是每一个(key,value)对(以下简称kv对),key会通过一个hash算法转化成hash-key,便于查找、对比以及做到尽可能的散列。同时,memcached用的是一个二级散列,通过一张大hash表来... 阅读全文

posted @ 2015-03-26 09:39 白乔 阅读(128) 评论(0) 推荐(0)

分析Redis架构设计
摘要:http://blog.csdn.net/a600423444/article/details/8944601一、前言因为近期项目中开始使用Redis,为了更好的理解Redis并应用在适合的业务场景,需要对Redis设计与实现深入的理解。我分析流程是按照从main进入,逐步深入分析Redis的启动流... 阅读全文

posted @ 2015-03-24 14:44 白乔 阅读(234) 评论(0) 推荐(0)

Hive体系结构介绍
摘要:http://www.aboutyun.com/thread-6217-1-1.html1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cl... 阅读全文

posted @ 2015-03-17 13:58 白乔 阅读(1103) 评论(0) 推荐(0)

学习GraphX
摘要:首先准备如下社交图形数据:打开spark-shell;导入相关包:import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDD创建如上graph对象:// Create an RDD ... 阅读全文

posted @ 2015-03-16 16:50 白乔 阅读(484) 评论(0) 推荐(0)

hadoop vs spark
摘要:http://www.zhihu.com/question/26568496#answer-12035815Hadoop首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。HDFS,在由普通PC组成的... 阅读全文

posted @ 2015-03-12 15:06 白乔 阅读(306) 评论(0) 推荐(0)

BSP模型
摘要:http://www.uml.org.cn/yunjisuan/201212191.aspHama中最关键的就是BSP(Bulk Synchronous Parallel-“大型”同步模型)模型, BSP的概念由Valiant(1990)提出的,“块”同步模型,是一种异步MIMD-DM模型,支持消息... 阅读全文

posted @ 2015-03-12 11:29 白乔 阅读(1282) 评论(0) 推荐(0)

spark向量、矩阵类型
摘要:先来个普通的数组:scala> var arr=Array(1.0,2,3,4)arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0)可以将它转换成一个Vector:scala> import org.apache.spark.mllib.lin... 阅读全文

posted @ 2015-03-12 10:05 白乔 阅读(678) 评论(0) 推荐(0)

“换位思考”帮你做好部门主管
摘要:最近遇到几个同事,谈及对主管工作的一些手足无措,我倒是一直没感觉到真有多难,说起诀窍,我想主要还是靠“换位思考”吧!说到底,就是要跳出来,审视自己的角色定位。当然,“换位思考”同样适用于不同岗位的人,这里我主要针对业务主管的岗位说点废话。业务主管,对下带团队,带1个小组,或者带N个小组,对上向老板(... 阅读全文

posted @ 2015-03-11 14:06 白乔 阅读(281) 评论(0) 推荐(0)

spark处理jsonFile
摘要:按照spark的说法,这里的jsonFile是特殊的文件:Note that the file that is offered as jsonFile is not a typical JSON file. Each line must contain a separate, sel... 阅读全文

posted @ 2015-03-10 13:22 白乔 阅读(1064) 评论(0) 推荐(0)

Dremel made simple with Parquet
摘要:http://lastorder.me/tag/parquet.htmlhttps://blog.twitter.com/2013/dremel-made-simple-with-parquet对于优化『关系型数据库上的分析任务』,列式存储(Columnar Storage)是个比较流行的技术. 这... 阅读全文

posted @ 2015-03-10 09:37 白乔 阅读(243) 评论(0) 推荐(0)

从NSM到Parquet:存储结构的衍化
摘要:http://blog.csdn.net/dc_726/article/details/41777661为了优化MapReduce及MR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile,以及配合Impala实现出Google ... 阅读全文

posted @ 2015-03-10 09:30 白乔 阅读(379) 评论(0) 推荐(0)

spark stream初探
摘要:spark带了一个NetworkWordCount测试程序,用以统计来自某TCP连接的单词输入:/usr/local/spark/bin/run-example streaming.NetworkWordCount localhost 9999再启动netcat: nc -lk 99... 阅读全文

posted @ 2015-03-09 10:14 白乔 阅读(163) 评论(0) 推荐(0)

大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
摘要:http://www.aboutyun.com/thread-6855-1-1.html个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm... 阅读全文

posted @ 2015-03-06 15:44 白乔 阅读(221) 评论(0) 推荐(0)

Spark Shuffle实现
摘要:Apache Spark探秘:Spark Shuffle实现http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Sp... 阅读全文

posted @ 2015-03-06 10:24 白乔 阅读(255) 评论(0) 推荐(0)

spark下统计单词频次
摘要:写了一个简单的语句,还没有优化:scala> sc. | textFile("/etc/profile"). | flatMap((s:String)=>s.split("\\s")). | map(_.toUpperCase). | map((s:S... 阅读全文

posted @ 2015-03-06 08:51 白乔 阅读(506) 评论(0) 推荐(0)

使用PSSH批量SSH操作Linux服务器
摘要:http://www.opstool.com/article/266服务器多了,有一个烦恼就是如何批量快速操作一堆服务器。这里我推荐一下经常使用利器pssh。这个工具给我的工作带来了莫大的帮助。简介pssh是一款开源的软件,使用python实现。用于批量ssh操作大批量机器。pssh的项目地址htt... 阅读全文

posted @ 2015-03-05 11:07 白乔 阅读(412) 评论(0) 推荐(0)

搭建scala开发环境
摘要:下载scala 2.11.5安装eclipse LUNA版本安装scala IDE插件:http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site 还可以安装jd-gui,用以反编译生成的class文件,参见h... 阅读全文

posted @ 2015-03-04 21:18 白乔 阅读(133) 评论(0) 推荐(0)

scala学习笔记:理解stream和view
摘要:先来个正常的:scala> (0 to 5).map((x:Int)=>{println(x);x*2}).foreach(println)0123450246810再来个stream版的:scala> (0 to 5).toStream.map((x:Int)=>{println(... 阅读全文

posted @ 2015-03-01 22:54 白乔 阅读(431) 评论(1) 推荐(0)

导航

点击右上角即可分享
微信分享提示