摘要: 说明 这篇文章记录下 spark提交左右在yarn上运行 hadoop配置 主要配置yarn site.xml文件,我们目前使用mapreduce_shuffle,而有些公司也增加了spark_shuffle 只使用mapreduce_shuffle 使用mapreduce... 阅读全文
posted @ 2015-09-22 20:58 stark_summer 阅读(879) 评论(0) 推荐(0) 编辑
摘要: 命令名称:ls 命令英文原意:list 命令所在路径:/bin/ls 执行权限:所有用户 功能描述:显示目录文件 语法:ls 选项[-ald] [文件或目录] -a 显示所有文件,包括隐藏文件 -l 详细信息显示 -d 查看目录属性不加任何参数(即查询当前目录):macbook-pro:~ d... 阅读全文
posted @ 2015-09-21 23:38 stark_summer 阅读(558) 评论(0) 推荐(0) 编辑
摘要: 配置设置nodemanager 总内存大小为32G,在yarn-site.xml 增加如下内容: yarn.nodemanager.resource.memory-mb 32768container内存按照默认大小配置,即为最小1G,最大8G yarn.scheduler.mi... 阅读全文
posted @ 2015-09-16 15:07 stark_summer 阅读(1221) 评论(0) 推荐(0) 编辑
摘要: 当我们想更好的使用yarn & mapreduce,而我们不知道参数具体含义?哪些参数需要修改?而这个链接就可以很详细的告诉我们。 个人强烈推荐的文章 http://zh.hortonworks.com/blog/how-to-plan-and-configure-yarn-in-h... 阅读全文
posted @ 2015-09-16 11:00 stark_summer 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 前置条件说明Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。 从Hive 1.1版本开始,Hive on Spark已经成为Hive代码的一部分了,并且在spark分支上面,可以看这里htt... 阅读全文
posted @ 2015-09-15 14:02 stark_summer 阅读(605) 评论(0) 推荐(0) 编辑
摘要: hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容: hive.metastore.uris thrift://master:9083 Thrift uri for the remote metastore. Used by metast... 阅读全文
posted @ 2015-09-14 18:33 stark_summer 阅读(597) 评论(0) 推荐(0) 编辑
摘要: Tachyon 0.7.1伪分布式集群安装与测试: http://blog.csdn.net/stark_summer/article/details/48321605 从官方文档得知,Spark 1.4.x和Tachyon 0.6.4版本兼容,而最新版的Tachyon 0.7.1... 阅读全文
posted @ 2015-09-14 17:50 stark_summer 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 恩,这个问题,反正是我从来没有注意的问题,但今天还是写出来吧配置信息hadoop core-site.xml配置 io.compression.codecs org.apache.hadoop.io.compress.GzipCodec,org.apache.had... 阅读全文
posted @ 2015-09-11 17:59 stark_summer 阅读(2843) 评论(0) 推荐(0) 编辑
摘要: Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的... 阅读全文
posted @ 2015-09-09 20:05 stark_summer 阅读(266) 评论(0) 推荐(0) 编辑
摘要: Spark 1.5.0是1.x线上的第6个发行版。这个版本共处理了来自230+contributors和80+机构的1400+个patches。Spark 1.5的许多改变都是围绕在提升Spark的性能、可用性以及操作稳定性。Spark 1.5.0焦点在Tungsten项目,它主... 阅读全文
posted @ 2015-09-09 17:35 stark_summer 阅读(421) 评论(0) 推荐(0) 编辑
摘要: Display Systemtext 默认使用scala语言输出text内容 shell html scala 输出html shell 输出html table scala shell table scala: shell: html: Manual动态表格使用表格模板 文本输... 阅读全文
posted @ 2015-09-09 16:34 stark_summer 阅读(1321) 评论(0) 推荐(0) 编辑
摘要: 1. 前置条件None root accountApache MavenJava 1.72. 源码https://github.com/apache/incubator-zeppelingit clonehttps://github.com/apache/incubator-zeppelin3. 编... 阅读全文
posted @ 2015-09-07 16:04 stark_summer 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 活动时间北京第九次Spark Meetup活动将于2015年08月22日进行;下午14:00-18:00。活动地点 北京市海淀区丹棱街5号 微软亚太研发集团总部大厦1号楼活动内容 1. 《Keynote》 ,分享人:Sejun Ra ,CEO of NFLabs.com 2.... 阅读全文
posted @ 2015-09-07 10:01 stark_summer 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 错误日志: Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metad... 阅读全文
posted @ 2015-09-02 14:41 stark_summer 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 之前写过一篇这个文章:http://blog.csdn.net/stark_summer/article/details/47361603,那个时候 linux环境 spark 使用snappy方式压缩任然不好用,而今天我同事hive on hadoop 使用snappy压缩方式也报这个错,此刻的我... 阅读全文
posted @ 2015-08-31 16:56 stark_summer 阅读(2212) 评论(0) 推荐(0) 编辑
摘要: 上海Spark Meetup第六次聚会将于2015年8月29日在上海市杨浦云计算创新基地发展有限公司举办。本次聚会由Intel举办。主讲题目:Tachyon: 内存为中心可容错的分布式存储系统摘要:在越来越多的大数据应用场景诸如机器学习,数据分析等, 内存成为保证和提升性能的关键. Tachyon正... 阅读全文
posted @ 2015-08-29 15:52 stark_summer 阅读(218) 评论(0) 推荐(0) 编辑
摘要: hadoop1配置 mapred-site.xml,增加如下内容 mapred.jobtracker.taskScheduler org.apache.hadoop.mapred.FairScheduler mapred.f... 阅读全文
posted @ 2015-08-28 11:03 stark_summer 阅读(492) 评论(0) 推荐(0) 编辑
摘要: 大会地址 上海Spark Meetup第四次聚会将于2015年7月18日在太库科技创业发展有限公司举办,详细地址上海市浦东新区金科路2889弄3号长泰广场 C座12层,太库。本次聚会由七牛和Intel联合举办。大会主题 1. hadoop/spark生态的落地实践 王团结(七牛)... 阅读全文
posted @ 2015-08-27 10:33 stark_summer 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 我们兴奋地宣布,从今天开始,Apache Spark1.5.0的预览数据砖是可用的。我们的用户现在可以选择提供集群与Spark 1.5或先前的火花版本准备好几个点击。正式,Spark 1.5预计将在数周内公布,和社区所做的QA测试的版本。鉴于火花的快节奏发展,我们觉得这是很重要的,使我们的用户尽快开... 阅读全文
posted @ 2015-08-25 14:00 stark_summer 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 这篇文章我已经看过两遍了,收获颇多,抽个时间翻译下,先贴个原文链接吧,也给自己留个任务http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ ... 阅读全文
posted @ 2015-08-25 06:59 stark_summer 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 最近几天阅读了下 cloudera一篇文章,个人感觉写的非常不错,我也懒着翻译了,感觉 文章 翻译成中文,会很墨迹和啰嗦,所以直接看原文吧http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/h... 阅读全文
posted @ 2015-08-24 07:32 stark_summer 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 就是希望 从别的机器上copy文件的是完整,不丢失的 具体资料我就不整理了,看些如下参考链接,大概也了解了参考链接如下: http://serverfault.com/questions/289646/scp-is-a-checksum-required http://serverf... 阅读全文
posted @ 2015-08-19 18:17 stark_summer 阅读(205) 评论(0) 推荐(0) 编辑
摘要: hadoop mr 或者 spark 操作 hbase时候就出现这个错误 这是hbase的bug,可在jira上看到该问题:https://issues.apache.org/jira/browse/HBASE-10304报错信息:15/08/17 19:28:33 ERROR y... 阅读全文
posted @ 2015-08-18 12:01 stark_summer 阅读(2234) 评论(0) 推荐(0) 编辑
摘要: 问题描述打开hadoop 集群地址,hostname:8088选择任何一个已经FINISHED或者FAILED的任务,然后点击 appplicationID ,比如:application_1439618500064_1100 进去ApplicationMaster 信息页面 点击l... 阅读全文
posted @ 2015-08-17 16:40 stark_summer 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 错误原文分析文件操作超租期,实际上就是data stream操作过程中文件被删掉了。通常是因为Mapred多个task操作同一个文件,一个task完成后删掉文件导致。这个错误跟dfs.datanode.max.transfer.threads参数到达上限有关。这个是datanode同... 阅读全文
posted @ 2015-08-17 13:09 stark_summer 阅读(5486) 评论(0) 推荐(0) 编辑
摘要: 活动时间北京第九次Spark Meetup活动将于2015年08月22日进行;下午14:00-18:00。活动地点 北京市海淀区丹棱街5号 微软亚太研发集团总部大厦1号楼活动内容 1. 《Keynote》 ,分享人:Sejun Ra ,CEO of NFLabs.com 2.... 阅读全文
posted @ 2015-08-15 09:51 stark_summer 阅读(184) 评论(0) 推荐(0) 编辑
摘要: updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加 在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步: 1) 定义状态:可以是任意数据类型 2) 定义状态更新函数:用一个函数... 阅读全文
posted @ 2015-08-14 19:12 stark_summer 阅读(1049) 评论(0) 推荐(0) 编辑
摘要: 本人很少转载别人的文章,但看了这篇文章感觉非常不错,我不晓得这篇文章是否是此人原创翻译的,但给点个赞吧,加油转载于:http://blog.csdn.net/hust_sheng/article/details/47614925摘要: Tachyon是一种分布式文件系统,可以借助集群计算框架使得数... 阅读全文
posted @ 2015-08-14 08:22 stark_summer 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 场景描述:hadoop集群中正在运行的任务,点击“application_1438756578740_5947”链接,然后能看到ApplicationMaters信息,有N个Node节点在运行,然后点击任一个Node的logs链接,会报错如下:“Container does not ... 阅读全文
posted @ 2015-08-13 18:34 stark_summer 阅读(631) 评论(0) 推荐(0) 编辑
摘要: 最近 有网友看我的“整合Kafka到Spark Streaming——代码示例和挑战”文章, 讲 kafka对象 放到 pool 并通过broadcast广播出去: 然后 在开发测试阶段 报错如下: 然后就找我,说“代码都跟你的差不多呀,为什么就报这个错呢?” 其实 对于广播操作... 阅读全文
posted @ 2015-08-11 15:15 stark_summer 阅读(1774) 评论(0) 推荐(0) 编辑
摘要: 情况描述其实这个问题已经困扰我很久了,最近在公司Linux上搭建hadoop 和 spark环境的时候,我就遇到 spark提交作业到yarn 集群就报错这个错,当时已经安装snappy环境了,任何关于snappy静态库都编译了,这是我提交到spark mail list上的http... 阅读全文
posted @ 2015-08-08 20:09 stark_summer 阅读(1478) 评论(0) 推荐(1) 编辑
摘要: 源码地址:https://github.com/google/snappy 下载 git clone https://github.com/google/snappy编译 进入snappy源码目录,执行命令: ./autogen.sh 报错 “./autogen.sh: line 3... 阅读全文
posted @ 2015-08-08 17:40 stark_summer 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 从docker 仓库 pull 镜像 docker pull sequenceiq/spark:1.4.0 构建 docker 镜像 docker build –rm -t sequenceiq/spark:1.4.0 . -t 选项是你要构建的sequenceiq/spark i... 阅读全文
posted @ 2015-08-07 18:09 stark_summer 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 检查 Mac OS version 要求必须是 OS X 10.6 Snow Leopard or newer to run Boot2Docker安装 Boot2Docker列表内容下载地址:https://github.com/boot2docker/osx-installer... 阅读全文
posted @ 2015-08-07 14:40 stark_summer 阅读(442) 评论(0) 推荐(0) 编辑
摘要: HBase 1.1.1 发布下载:hbase-1.1.1-bin.tar.gzhbase-1.1.1-bin.tar.gz.mdshbase-1.1.1-src.tar.gzhbase-1.1.1-src.tar.gz.mds更新内容如下:** 子任务 * [HBASE-13470] - High ... 阅读全文
posted @ 2015-08-04 11:29 stark_summer 阅读(456) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。本节描述了Spark Streaming作业的执行流程。图1 Spark Streaming作业的执行流程具体流程:客户端提交作业后启... 阅读全文
posted @ 2015-08-03 10:25 stark_summer 阅读(278) 评论(0) 推荐(0) 编辑
摘要: RDD详解RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。当然,RDD肯定不会这么简单,... 阅读全文
posted @ 2015-07-31 20:13 stark_summer 阅读(420) 评论(0) 推荐(0) 编辑
摘要: def main(args: Array[String]) { val sc = new SparkContext("local", "xxx") val inputData = sc.textFile("hdfs://master:8020/data/spark/use... 阅读全文
posted @ 2015-07-31 17:51 stark_summer 阅读(450) 评论(0) 推荐(0) 编辑
摘要: https://issues.apache.org/jira/browse/YARN-182 https://issues.apache.org/jira/browse/YARN-903 https://issues.apache.org/jira/browse/HBASE-1030... 阅读全文
posted @ 2015-07-30 14:50 stark_summer 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的,因为作业是提交到yarn的集群上,so 去yarn集群上看日志是很麻烦的,但有特别想看下print的信息,方便调试或者别的目的 在Spar... 阅读全文
posted @ 2015-07-17 16:42 stark_summer 阅读(3772) 评论(0) 推荐(0) 编辑