Jason Koo

      Stay hungry, Stay foolish!

导航

文章分类 -  cluster computing

摘要:【缘起】 最近两个月的工作重点是学习CDH(Cloudera's Distribution Including Hadoop)的安装部署和使用。在阅读CDH的官方文档时,其中一句话吸引了我的眼球:Cloudera Manager uses an open source supervisor... 阅读全文

posted @ 2014-05-24 23:59 Jason Koo 阅读(33703) 评论(0) 推荐(1)

摘要:1. CPU平均利用率真实图dataset Nodes Edges Hadoop Sparkwiki-Vote 0.7115 0.103689 25.71 28.18soc-Slashdot0902 8.2168 0.948464 30.03 34.4web-Google 87.5713 5.105039 31.62 30.6cit-Patents 377.4768 16.518948 28.59 28.42twitter-Small 1131.6811 85.331845 22.12 31.6模拟图dataset Nodes Edges Hadoop Sparkkronecker19 41. 阅读全文

posted @ 2013-12-06 09:15 Jason Koo 阅读(386) 评论(0) 推荐(0)

摘要:1. 图规模与CPU平均利用率真实图dataset Nodes Edges Hadoop Sparkwiki-Vote 7115 103689 26.81 27.01soc-Slashdot0902 82168 948464 30.55 31.93web-Google 875713 5105039 30.82 29.05cit-Patents 3774768 16518948 29.01 28.37twitter-Small 11316811 85331845 22.53 30.77dataset Nodes Edges Hadoop Sparkkronecker19 416962 3206. 阅读全文

posted @ 2013-12-05 13:19 Jason Koo 阅读(263) 评论(0) 推荐(0)

摘要:GraphLab是CMU(卡耐基梅隆大学)开发的一个以vertex为计算单元的大规模图处理系统,是继google的Pregel之后的第一个开源的大规模图处理系统,它解决了传统mapreduce框架对于机器学习应用的处理中最突出的两个问题(频繁迭代计算和大量节点通信)引起的计算效率的问题,与Haloop,Twister等基于mapreduce批量处理不同的是,它采用Pregel的以vertex为计算单元,并将机器学习抽象成GAS(gather,apply,scatter)三个步骤,然后按该抽象模型设计实现算法,事实已经证明该框架对于机器学习这一类跟图处理关系紧密的应用有很好的效果。最近这几天在实 阅读全文

posted @ 2013-08-14 16:41 Jason Koo 阅读(5347) 评论(6) 推荐(0)

摘要:1. 备份master和所有slave上的文档、程序和软件master上的目录结构:conf/dataset/hadoop/mesos/package/spark/桌面/.result/.scriptslave上的目录结构:conf/hadoop/mesos/package/spark/桌面/.result/.scriptmaster上/etc/hosts文件中的内容:127.0.0.1 localhost#127.0.1.1 master# The following lines are desirable for IPv6 capable hosts::1 i... 阅读全文

posted @ 2013-05-19 21:39 Jason Koo 阅读(835) 评论(0) 推荐(0)

摘要:mesos的具体安装过程可以参考我的上一篇日志《mesos安装总结》。安装Spark之前要在所有的主机上先安装JDK和Scala。JDK的安装过程就不赘述了。下面简单介绍一下Scala 2.9.2的安装过程。每台主机上都要安装!!!!首先,从scala官方网站下载scala 2.9.2的压缩包接着,使用命令tar zxvfscala-2.9.2.tgz解压文件,得到文件夹scala-2.9.2。然后,在用户主目录下创建一个名为.scala的文件夹,将scala-2.9.2拷贝到.scala目录下。最后,修改~/.bashrc文件,在其中添加如下两行:export SCALA_HOME=/hom 阅读全文

posted @ 2012-12-26 23:23 Jason Koo 阅读(4110) 评论(2) 推荐(0)

摘要:mesos的具体安装过程可以参考我的上一篇日志《mesos安装总结》。本篇日志主要介绍在mesos之上安装Hadoop。mesos0.9.0的解压包中包含了Hadoop 0.20.205.0版本及相应的补丁程序。可以使用mesos自带的Hadoop来进行安装。下面的安装过程会用到master结点上解压并build好的mesos目录,具体过程请参见mesos安装总结。在下面总结过程中使用<mesos>来指代解压并build好的mesos目录,用<prefix>代指mesos的安装目录。具体安装Hadoop的过程如下所示:(1) 在master结点上,进入文件夹<me 阅读全文

posted @ 2012-12-26 22:37 Jason Koo 阅读(2546) 评论(0) 推荐(0)

摘要:近期的一项任务是对比Hadoop和Spark两种分布式计算框架的迭代性能,为了更加充分合理地管理集群中的资源,用到了mesos这种资源管理平台。mesos最初是UC Berkeley AMP实验室的一个研究项目,后来开源,并加入Apache,成为一个孵化器项目。 从其主页可以了解到mesos是一种集群管理器,它为不同的分布式应用或框架提供高效的资源隔离与共享服务。在mesos上面可以运行Hadoop, MPI, Hypertable, Spark和其他应用。 mesos的用途有四点:1. 在一个动态共享的结点池中运行Hadoop, MPI, Spark和其他框架 2. 在同一个集... 阅读全文

posted @ 2012-12-26 20:47 Jason Koo 阅读(6697) 评论(3) 推荐(0)

摘要:实验室里有一个小型的Hadoop集群,是由一个学弟在做本科毕设的时候搭建的。本想偷偷懒,直接用他搭建的环境跑跑实验,可是当初给每个节点的操作系统分配的磁盘空间有限,在跑一些数据量较大迭代次数较多的实验的时候,运行到一半就会导致磁盘空间不足,程序无法继续执行。具体报的错误是“could only be replicated to 0 nodes, instead of 1”。没有办法,为了以后能长时间方便使用集群环境,只能自己重新搭建。资源介绍:实验室里有六七台空闲主机,我选了其中四台配置还算不错的,用来作为集群环境的主机。由于主机是分批购买的,配置都不太一样,但是大概都满足以下条件: CPU 阅读全文

posted @ 2012-07-23 14:38 Jason Koo 阅读(483) 评论(0) 推荐(0)