随笔档案「2015年3月」 - 逸云丫丫

Spark GraphX学习资料

摘要：《Spark GraphX 大规模图计算和图挖掘》http://book.51cto.com/art/201408/450049.htmhttp://www.csdn.net/article/2014-03-28/2819023-Spark-Graphx《Spark亚太研究院系列丛书——Spark实... 阅读全文

posted @ 2015-03-31 11:24 逸云丫丫阅读(577) 评论(0) 推荐(0)

redis实现主从复制-单机测试

摘要：一、redis实现主从复制-单机测试1、安装redis tar -zxvf redis-2.8.4.tar.gzcd redis-2.8.4make && make install2、配置主从关系需要在slave服务器的redis.conf中配置slaveof 192.168.1.1 6379 #指... 阅读全文

posted @ 2015-03-31 10:51 逸云丫丫阅读(5594) 评论(0) 推荐(0)

Hadoop技术内幕(YARN)第4章问题部分答案

摘要：问题1：改写DistributedShell程序，使得每个container运行在不同节点上（目前是随机的，可能运行在任意节点上）。问题2：改写DistributedShell程序，使得某个用户指定的命令可以在集群的每个节点上仅执行一次。参考 http://tech.ddvip.com/2014-0... 阅读全文

posted @ 2015-03-30 16:43 逸云丫丫阅读(204) 评论(0) 推荐(0)

storm学习途径

摘要：作者:xumingming| 网址:http://xumingming.sinaapp.com/category/storm/作者：量子恒道|网址：http://blog.linezing.com/ 阅读全文

posted @ 2015-03-25 15:12 逸云丫丫阅读(186) 评论(0) 推荐(0)

Spark中的RDD操作简介

摘要：map(func)对数据集中的元素逐一处理，变为新的元素，但一个输入元素只能有一个输出元素scala> pairData.collect()res6: Array[Int] = Array(1, 2, 3, 4, 5)scala> val pairData = distData.map(a=>(a,... 阅读全文

posted @ 2015-03-23 09:53 逸云丫丫阅读(855) 评论(0) 推荐(0)

【转】Hadoop web页面的授权设定

摘要：转载自过往记忆（http://www.iteblog.com/）本文链接地址:《Hadoop web页面的授权设定》（http://www.iteblog.com/archives/988）一、相关概念在默认情况下，Hadoop相关的WEB页面（JobTracker, NameNode, Tas... 阅读全文

posted @ 2015-03-20 15:20 逸云丫丫阅读(612) 评论(0) 推荐(0)

源码安装ipython，并在ipython中整合spark

摘要：一、安装ipython下载ipython， https://pypi.python.org/packages/source/i/ipython/ipython-2.2.0.tar.gz#md5=b91d3724f655a8e16d022772f696cfd5cd /app/softwares/ipy... 阅读全文

posted @ 2015-03-19 17:15 逸云丫丫阅读(1920) 评论(0) 推荐(0)

Spark调优

摘要：因为Spark是内存当中的计算框架，集群中的任何资源都会让它处于瓶颈，CPU、内存、网络带宽。通常，内存足够的情况之下，网络带宽是瓶颈，这时我们就需要进行一些调优，比如用一种序列化的方式来存储RDD来减少内存使用，这边文章就讲两种方式，数据序列化和内存调优，接下来我们会分几个主题来谈论这个调优问题。... 阅读全文

posted @ 2015-03-19 16:38 逸云丫丫阅读(303) 评论(0) 推荐(0)

在Java中调用C

摘要：在Java代码中通过JNI调用C函数的步骤如下：第一步：编写Java代码第二步：编译Java代码(javac Java文件)第三步：生成C代码头文件(javah java类名，自动生成)第四步：编写C代码(实现C代码头文件里面的函数)第五步：生成C共享库(使用工具编译生成C共享库，win下面为dll... 阅读全文

posted @ 2015-03-19 16:28 逸云丫丫阅读(585) 评论(0) 推荐(0)

Ganglia安装

摘要：一、rrdtool安装1.1 安装依赖包由于rrdtool依赖的包比较多，而且包之间也存在依赖，故使用yum安装由于服务器无法联网，故使用iso文件创建本地yum源，方法见下：（1）创建iso存放目录和挂载目录mkdir /mnt/iso mkdir /mnt/cdrom（2）将iso镜像文件上传到... 阅读全文

posted @ 2015-03-19 15:34 逸云丫丫阅读(995) 评论(0) 推荐(0)

【转】Spark on Yarn遇到的几个问题

摘要：本文转自http://www.cnblogs.com/Scott007/p/3889959.html1 概述 Spark的on Yarn模式，其资源分配是交给Yarn的ResourceManager来进行管理的，但是目前的Spark版本，Application日志的查看，只能通过Yarn的yarn... 阅读全文

posted @ 2015-03-19 14:44 逸云丫丫阅读(601) 评论(0) 推荐(0)

在Ubuntu14.10中部署Hadoop2.6.0单节点伪分布集群

摘要：1. 环境信息如下：ubuntu：14.10jdk：openjdk-1.7.0hadoop：2.6.02. 下载hadoop2.6.0,http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz本文的$HADOOP_H... 阅读全文

posted @ 2015-03-16 23:06 逸云丫丫阅读(529) 评论(0) 推荐(0)

sparkR介绍及安装

摘要：SparkR是AMPLab发布的一个R开发包，为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集（RDD）的API，用户可以在集群上通过R shell交互性的运行job。例如，我们可以在HDFS上读取或写入文件，也可以使用 lapply 来定义对应每一个RDD... 阅读全文

posted @ 2015-03-16 17:02 逸云丫丫阅读(2259) 评论(2) 推荐(0)

使用自定义类的方式对hiveServer2的连接用户进行认证

该文被密码保护。

posted @ 2015-03-13 17:29 逸云丫丫阅读(1) 评论(0) 推荐(0)

spark出现task不能序列化错误的解决方法

摘要：应用场景：使用JavaHiveContext执行SQL之后，希望能得到其字段名及相应的值，但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误，代码如下：Java... 阅读全文

posted @ 2015-03-12 15:36 逸云丫丫阅读(7713) 评论(0) 推荐(0)