Spark GraphX学习资料
摘要:《Spark GraphX 大规模图计算和图挖掘》http://book.51cto.com/art/201408/450049.htmhttp://www.csdn.net/article/2014-03-28/2819023-Spark-Graphx《Spark亚太研究院系列丛书——Spark实...
阅读全文
posted @
2015-03-31 11:24
逸云丫丫
阅读(577)
推荐(0)
redis实现主从复制-单机测试
摘要:一、redis实现主从复制-单机测试1、安装redis tar -zxvf redis-2.8.4.tar.gzcd redis-2.8.4make && make install2、配置主从关系需要在slave服务器的redis.conf中配置slaveof 192.168.1.1 6379 #指...
阅读全文
posted @
2015-03-31 10:51
逸云丫丫
阅读(5594)
推荐(0)
Hadoop技术内幕(YARN)第4章问题部分答案
摘要:问题1:改写DistributedShell程序,使得每个container运行在不同节点上(目前是随机的,可能运行在任意节点上)。问题2:改写DistributedShell程序,使得某个用户指定的命令可以在集群的每个节点上仅执行一次。参考 http://tech.ddvip.com/2014-0...
阅读全文
posted @
2015-03-30 16:43
逸云丫丫
阅读(204)
推荐(0)
storm学习途径
摘要:作者:xumingming| 网址:http://xumingming.sinaapp.com/category/storm/作者:量子恒道|网址:http://blog.linezing.com/
阅读全文
posted @
2015-03-25 15:12
逸云丫丫
阅读(186)
推荐(0)
Spark中的RDD操作简介
摘要:map(func)对数据集中的元素逐一处理,变为新的元素,但一个输入元素只能有一个输出元素scala> pairData.collect()res6: Array[Int] = Array(1, 2, 3, 4, 5)scala> val pairData = distData.map(a=>(a,...
阅读全文
posted @
2015-03-23 09:53
逸云丫丫
阅读(855)
推荐(0)
【转】Hadoop web页面的授权设定
摘要:转载自过往记忆(http://www.iteblog.com/)本文链接地址:《Hadoop web页面的授权设定》(http://www.iteblog.com/archives/988)一、相关概念 在默认情况下,Hadoop相关的WEB页面(JobTracker, NameNode, Tas...
阅读全文
posted @
2015-03-20 15:20
逸云丫丫
阅读(612)
推荐(0)
源码安装ipython,并在ipython中整合spark
摘要:一、安装ipython下载ipython, https://pypi.python.org/packages/source/i/ipython/ipython-2.2.0.tar.gz#md5=b91d3724f655a8e16d022772f696cfd5cd /app/softwares/ipy...
阅读全文
posted @
2015-03-19 17:15
逸云丫丫
阅读(1920)
推荐(0)
Spark调优
摘要:因为Spark是内存当中的计算框架,集群中的任何资源都会让它处于瓶颈,CPU、内存、网络带宽。通常,内存足够的情况之下,网络带宽是瓶颈,这时我们就需要进行一些调优,比如用一种序列化的方式来存储RDD来减少内存使用,这边文章就讲两种方式,数据序列化和内存调优,接下来我们会分几个主题来谈论这个调优问题。...
阅读全文
posted @
2015-03-19 16:38
逸云丫丫
阅读(303)
推荐(0)
在Java中调用C
摘要:在Java代码中通过JNI调用C函数的步骤如下:第一步:编写Java代码第二步:编译Java代码(javac Java文件)第三步:生成C代码头文件(javah java类名,自动生成)第四步:编写C代码(实现C代码头文件里面的函数)第五步:生成C共享库(使用工具编译生成C共享库,win下面为dll...
阅读全文
posted @
2015-03-19 16:28
逸云丫丫
阅读(585)
推荐(0)
Ganglia安装
摘要:一、rrdtool安装1.1 安装依赖包由于rrdtool依赖的包比较多,而且包之间也存在依赖,故使用yum安装由于服务器无法联网,故使用iso文件创建本地yum源,方法见下:(1)创建iso存放目录和挂载目录mkdir /mnt/iso mkdir /mnt/cdrom(2)将iso镜像文件上传到...
阅读全文
posted @
2015-03-19 15:34
逸云丫丫
阅读(995)
推荐(0)
【转】Spark on Yarn遇到的几个问题
摘要:本文转自http://www.cnblogs.com/Scott007/p/3889959.html1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn...
阅读全文
posted @
2015-03-19 14:44
逸云丫丫
阅读(601)
推荐(0)
在Ubuntu14.10中部署Hadoop2.6.0单节点伪分布集群
摘要:1. 环境信息如下:ubuntu:14.10jdk:openjdk-1.7.0hadoop:2.6.02. 下载hadoop2.6.0,http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz本文的$HADOOP_H...
阅读全文
posted @
2015-03-16 23:06
逸云丫丫
阅读(529)
推荐(0)
sparkR介绍及安装
摘要:SparkR是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。例如,我们可以在HDFS上读取或写入文件,也可以使用 lapply 来定义对应每一个RDD...
阅读全文
posted @
2015-03-16 17:02
逸云丫丫
阅读(2259)
推荐(0)
spark出现task不能序列化错误的解决方法
摘要:应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误,代码如下:Java...
阅读全文
posted @
2015-03-12 15:36
逸云丫丫
阅读(7713)
推荐(0)