2015 年 3月随笔档案 - 白乔

spark下测试akka的分布式通讯功能

摘要：采用的spark版本为1.1.0scala版本为2.10.4编写scala类文件myactors.scala：package bluejoeimport akka.actor._import com.typesafe.config.ConfigFactoryimport akka.remote.Re... 阅读全文

posted @ 2015-03-29 21:38 白乔阅读(295) 评论(0) 推荐(0)

akka创建actor时报错：IllegalArgumentException: no matching constructor found on class $iwC$$iwC$$iwC$$iwC$

摘要：在spark-shell中输入范例中的代码：import akka.actor.Actorimport akka.actor.Propsimport akka.event.Logging class MyActor extends Actor { val log = Logging(context... 阅读全文

posted @ 2015-03-28 22:09 白乔阅读(865) 评论(0) 推荐(0)

akka构建简单分布式应用

摘要：http://www.cnblogs.com/hequn/articles/3764630.html当程序的要求达到一台计算机的极限时，我们便需要将程序分布式化，让程序运行在多台计算机上。akka提供了remote actor用来构建分布式应用。一、remote actor1.Actor path　... 阅读全文

posted @ 2015-03-26 18:06 白乔阅读(381) 评论(0) 推荐(0)

Memcached 工作原理

摘要：http://hzp.iteye.com/blog/1872664Memcached处理的原子是每一个（key，value）对（以下简称kv对），key会通过一个hash算法转化成hash-key，便于查找、对比以及做到尽可能的散列。同时，memcached用的是一个二级散列，通过一张大hash表来... 阅读全文

posted @ 2015-03-26 09:39 白乔阅读(137) 评论(0) 推荐(0)

分析Redis架构设计

摘要：http://blog.csdn.net/a600423444/article/details/8944601一、前言因为近期项目中开始使用Redis，为了更好的理解Redis并应用在适合的业务场景，需要对Redis设计与实现深入的理解。我分析流程是按照从main进入，逐步深入分析Redis的启动流... 阅读全文

posted @ 2015-03-24 14:44 白乔阅读(240) 评论(0) 推荐(0)

Hive体系结构介绍

摘要：http://www.aboutyun.com/thread-6217-1-1.html1、Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cl... 阅读全文

posted @ 2015-03-17 13:58 白乔阅读(1131) 评论(0) 推荐(0)

学习GraphX

摘要：首先准备如下社交图形数据：打开spark-shell；导入相关包：import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDD创建如上graph对象：// Create an RDD ... 阅读全文

posted @ 2015-03-16 16:50 白乔阅读(487) 评论(0) 推荐(0)

hadoop vs spark

摘要：http://www.zhihu.com/question/26568496#answer-12035815Hadoop首先看一下Hadoop解决了什么问题，Hadoop就是解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。HDFS，在由普通PC组成的... 阅读全文

posted @ 2015-03-12 15:06 白乔阅读(312) 评论(0) 推荐(0)

BSP模型

摘要：http://www.uml.org.cn/yunjisuan/201212191.aspHama中最关键的就是BSP(Bulk Synchronous Parallel-“大型”同步模型)模型, BSP的概念由Valiant(1990)提出的，“块”同步模型，是一种异步MIMD-DM模型，支持消息... 阅读全文

posted @ 2015-03-12 11:29 白乔阅读(1348) 评论(0) 推荐(0)

spark向量、矩阵类型

摘要：先来个普通的数组：scala> var arr=Array(1.0,2,3,4)arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0)可以将它转换成一个Vector：scala> import org.apache.spark.mllib.lin... 阅读全文

posted @ 2015-03-12 10:05 白乔阅读(682) 评论(0) 推荐(0)

“换位思考”帮你做好部门主管

摘要：最近遇到几个同事，谈及对主管工作的一些手足无措，我倒是一直没感觉到真有多难，说起诀窍，我想主要还是靠“换位思考”吧！说到底，就是要跳出来，审视自己的角色定位。当然，“换位思考”同样适用于不同岗位的人，这里我主要针对业务主管的岗位说点废话。业务主管，对下带团队，带1个小组，或者带N个小组，对上向老板（... 阅读全文

posted @ 2015-03-11 14:06 白乔阅读(287) 评论(0) 推荐(0)

spark处理jsonFile

摘要：按照spark的说法，这里的jsonFile是特殊的文件：Note that the file that is offered as jsonFile is not a typical JSON file. Each line must contain a separate, sel... 阅读全文

posted @ 2015-03-10 13:22 白乔阅读(1069) 评论(0) 推荐(0)

Dremel made simple with Parquet

摘要：http://lastorder.me/tag/parquet.htmlhttps://blog.twitter.com/2013/dremel-made-simple-with-parquet对于优化『关系型数据库上的分析任务』，列式存储（Columnar Storage）是个比较流行的技术. 这... 阅读全文

posted @ 2015-03-10 09:37 白乔阅读(248) 评论(0) 推荐(0)

从NSM到Parquet：存储结构的衍化

摘要：http://blog.csdn.net/dc_726/article/details/41777661为了优化MapReduce及MR之前的各种工具的性能，在Hadoop内建的数据存储格式外，又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile，以及配合Impala实现出Google ... 阅读全文

posted @ 2015-03-10 09:30 白乔阅读(386) 评论(0) 推荐(0)

spark stream初探

摘要：spark带了一个NetworkWordCount测试程序，用以统计来自某TCP连接的单词输入：/usr/local/spark/bin/run-example streaming.NetworkWordCount localhost 9999再启动netcat： nc -lk 99... 阅读全文

posted @ 2015-03-09 10:14 白乔阅读(167) 评论(0) 推荐(0)

大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

摘要：http://www.aboutyun.com/thread-6855-1-1.html个人观点：大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm... 阅读全文

posted @ 2015-03-06 15:44 白乔阅读(232) 评论(0) 推荐(0)

Spark Shuffle实现

摘要：Apache Spark探秘：Spark Shuffle实现http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/对于大数据计算框架而言，Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Sp... 阅读全文

posted @ 2015-03-06 10:24 白乔阅读(273) 评论(0) 推荐(0)

spark下统计单词频次

摘要：写了一个简单的语句，还没有优化：scala> sc. | textFile("/etc/profile"). | flatMap((s:String)=>s.split("\\s")). | map(_.toUpperCase). | map((s:S... 阅读全文

posted @ 2015-03-06 08:51 白乔阅读(516) 评论(0) 推荐(0)

使用PSSH批量SSH操作Linux服务器

摘要：http://www.opstool.com/article/266服务器多了，有一个烦恼就是如何批量快速操作一堆服务器。这里我推荐一下经常使用利器pssh。这个工具给我的工作带来了莫大的帮助。简介pssh是一款开源的软件，使用python实现。用于批量ssh操作大批量机器。pssh的项目地址htt... 阅读全文

posted @ 2015-03-05 11:07 白乔阅读(420) 评论(0) 推荐(0)

搭建scala开发环境

摘要：下载scala 2.11.5安装eclipse LUNA版本安装scala IDE插件：http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site 还可以安装jd-gui，用以反编译生成的class文件，参见h... 阅读全文

posted @ 2015-03-04 21:18 白乔阅读(136) 评论(0) 推荐(0)

scala学习笔记：理解stream和view

摘要：先来个正常的：scala> (0 to 5).map((x:Int)=>{println(x);x*2}).foreach(println)0123450246810再来个stream版的：scala> (0 to 5).toStream.map((x:Int)=>{println(... 阅读全文

posted @ 2015-03-01 22:54 白乔阅读(441) 评论(1) 推荐(0)

03 2015 档案