正文内容加载中...
posted @ 2013-11-28 01:00 asdffdas 阅读(2196) 评论(0) 推荐(1) 编辑
摘要: 对Hadoop TeraSort的介绍可以参见董大神的博客Hadoop中TeraSort算法分析以下就记录下测试过程TeraGen中SortGenMapper的addKey生成了10byte的Key,addRowId生成了88byte的Value,再加上每行的结束符,一行Tera记录是100byte。通过设置map task的数量可以控制输出文件的个数#生成了1MB的数据并在HDFS中创建1M的目录来存储,目录中包括4个文件,每个文件2500Byteshadoop jar hadoop-0.20.2-examples.jar teragen -D mapred.map.tasks=4 1000 阅读全文
posted @ 2013-04-17 09:09 asdffdas 阅读(1148) 评论(0) 推荐(0) 编辑
摘要: 简单的ByteBuffer调用和使用MPI交换参数程序设计:用ByteBuffer.allocateDirect() 接口分配两个等长的内存空间(addr1和addr2),在JNI中使用GetDirectBufferAddress接口获得两个内存空间的地址,通过MPI的MPI_Isend/MPI_Recv接口,将addr1中的数据传递到addr2中。整个MPI在单进程中执行。ByteBuff.javaView Code 1 import java.nio.ByteBuffer; 2 3 public class ByteBuff { 4 5 static { 6 ... 阅读全文
posted @ 2013-04-11 14:41 asdffdas 阅读(812) 评论(0) 推荐(0) 编辑
摘要: 实践出真知,首先是从Hello JNI开始接触目标文件包括:Hello.c Hello.class Hello.h Hello.java libHello.so;实现功能为在标准输出上打印Hello JNI操作流程是:编写Hello.java用javac Hello.java 生成 Hello.class用javah -jni Hello生成Hello.h然后编写Hello.c,使用Gcc编译共享库libHello.so最后调用java运行共享库的编译命令为:gcc -shared -fPIC -I /usr/local/jdk1.6.0_30/include/ -I /usr/local/j 阅读全文
posted @ 2013-04-10 15:20 asdffdas 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 并行程序调试、测试与模型检测并行程序调试的挑战:1、由于不能确定不同线程的执行顺序,导致可能的执行路径发生组合爆炸;2、使用模型检验程序正确性能以应用到分布式系统上。名词解释确定性重放:通过记录系统中不确定性事件的发生顺序,在重放阶段按照记录的顺序执行相关事件,使得重放阶段与记录阶段的执行具有相同的程序状态,从而缓解并行程序执行的不确定性对调试带来的影响。确定性并行:在并行程序执行时,必须遵守一定的规则来执行不确定事件,从而直接将并行程序的执行本身变成确定性的。并发错误:通常来源于多线程中未能正确处理同步问题。其特点是存在于多线程环境中并且具有不确定性。本质上,并发错误可分为:原子性违例、顺序 阅读全文
posted @ 2013-04-06 21:43 asdffdas 阅读(872) 评论(0) 推荐(0) 编辑
摘要: Spark是Berkeley大学AMP(stands forAlgorithms, Machines, and People)实验室开发的一个项目。它是一个基于RDD(Resilient Distributed Datasets)模型,能够支持计算MapReduce模式的作业,主要用于迭代计算和交互式数据计算等中间结果可重用的分布式计算框架。Spark 将数据缓存在内存中从而减少数据的访问延迟。1. RDDRDD,即可伸缩的分布式数据集合,管理数据缓存和数据重用,采用分析日志方式支持数据容错,提供了粗粒度的事务处理接口(map,filter,join)。RDD 对数据记录进行分区存储,本身是只 阅读全文
posted @ 2012-08-27 11:04 asdffdas 阅读(562) 评论(0) 推荐(0) 编辑
摘要: GraphChi 由卡内基梅隆大学的Aapo Kyrola 博士生开发,是GraphLab项目的一个分支。该框架能够在单机上完成大数据的图计算。GraphChi借鉴 GraphLab 和 Pregel 两个项目,采用基于以顶点为中心的计算模型。GraphChi 的核心是名为Parallel Sliding Windows (并行式滑动窗口,简称PSW)的模型,能够异步处理存储在硬盘上的可变图数据。1. PSW模型1PSW模型算法分为三个阶段:从硬盘载入数据、更新顶点和边、将更新写入到磁盘。作者对在介绍PSW时,以边权重可变的图作为示例,给定有向图G=(V, E)载入数据阶段:顶点集V被分为P个 阅读全文
posted @ 2012-08-26 18:25 asdffdas 阅读(854) 评论(0) 推荐(0) 编辑
摘要: 理论http://blog.pluskid.org/?p=17实现kmeans.zip效果图原始数据随机选取初始数据最终收敛结果 阅读全文
posted @ 2012-06-16 21:22 asdffdas 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 理论PageRank是求随机游动的平稳过程方法1,使用矩阵乘运算http://www.kreny.com/pagerank_cn.htm方法2,pagerank是反向链接对当前页面的贡献和http://zh.wikipedia.org/zh/PageRank联系:矩阵的列向量表示反向连接的贡献实现Pagerank.zip 阅读全文
posted @ 2012-06-15 17:08 asdffdas 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 理论学习笔记:JAVA RMI远程方法调用简单实例实践View Code 文件1package DS.homework;import java.rmi.Remote;import java.rmi.RemoteException;public interface Book extends Remote { String getDescription() throws RemoteException; Integer getNumberofStockpile() throws RemoteException;}文件2package DS.homework;import java.rm... 阅读全文
posted @ 2012-06-14 14:46 asdffdas 阅读(1048) 评论(0) 推荐(0) 编辑