stark_summer

2015年9月22日

摘要：说明这篇文章记录下 spark提交左右在yarn上运行 hadoop配置主要配置yarn site.xml文件,我们目前使用mapreduce_shuffle,而有些公司也增加了spark_shuffle 只使用mapreduce_shuffle 使用mapreduce... 阅读全文

posted @ 2015-09-22 20:58 stark_summer 阅读(913) 评论(0) 推荐(0)

2015年9月21日

文本处理命令－命令格式与目录处理命令ls

摘要：命令名称：ls 命令英文原意：list 命令所在路径：/bin/ls 执行权限：所有用户功能描述：显示目录文件语法：ls 选项[-ald] [文件或目录] -a 显示所有文件，包括隐藏文件 -l 详细信息显示 -d 查看目录属性不加任何参数(即查询当前目录):macbook-pro:~ d... 阅读全文

posted @ 2015-09-21 23:38 stark_summer 阅读(577) 评论(0) 推荐(0)

2015年9月16日

yarn & mapreduce 配置参数总结

摘要：配置设置nodemanager 总内存大小为32G，在yarn-site.xml 增加如下内容： yarn.nodemanager.resource.memory-mb 32768container内存按照默认大小配置，即为最小1G，最大8G yarn.scheduler.mi... 阅读全文

posted @ 2015-09-16 15:07 stark_summer 阅读(1271) 评论(0) 推荐(0)

理解配置yarn参数&mapreduce参数

摘要：当我们想更好的使用yarn & mapreduce，而我们不知道参数具体含义？哪些参数需要修改？而这个链接就可以很详细的告诉我们。个人强烈推荐的文章 http://zh.hortonworks.com/blog/how-to-plan-and-configure-yarn-in-h... 阅读全文

posted @ 2015-09-16 11:00 stark_summer 阅读(388) 评论(0) 推荐(0)

2015年9月15日

hive on spark 编译

摘要：前置条件说明Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。从Hive 1.1版本开始，Hive on Spark已经成为Hive代码的一部分了，并且在spark分支上面，可以看这里htt... 阅读全文

posted @ 2015-09-15 14:02 stark_summer 阅读(646) 评论(0) 推荐(0)

2015年9月14日

sparksql与hive整合

摘要： hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容: hive.metastore.uris thrift://master:9083 Thrift uri for the remote metastore. Used by metast... 阅读全文

posted @ 2015-09-14 18:33 stark_summer 阅读(627) 评论(0) 推荐(0)

tachyon与hdfs,以及spark整合

摘要： Tachyon 0.7.1伪分布式集群安装与测试: http://blog.csdn.net/stark_summer/article/details/48321605 从官方文档得知，Spark 1.4.x和Tachyon 0.6.4版本兼容，而最新版的Tachyon 0.7.1... 阅读全文

posted @ 2015-09-14 17:50 stark_summer 阅读(299) 评论(0) 推荐(0)

2015年9月11日

spark取得lzo压缩文件报错 java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec

摘要：恩,这个问题,反正是我从来没有注意的问题,但今天还是写出来吧配置信息hadoop core-site.xml配置 io.compression.codecs org.apache.hadoop.io.compress.GzipCodec,org.apache.had... 阅读全文

posted @ 2015-09-11 17:59 stark_summer 阅读(2920) 评论(0) 推荐(0)

2015年9月9日

Tachyon 0.7.1伪分布式集群安装与测试

摘要： Tachyon是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，就像Spark和 MapReduce那样。通过利用信息继承，内存侵入，Tachyon获得了高性能。Tachyon工作集文件缓存在内存中，并且让不同的 Jobs/Queries以及框架都能内存的... 阅读全文

posted @ 2015-09-09 20:05 stark_summer 阅读(289) 评论(0) 推荐(0)

Apache Spark 1.5.0正式发布

摘要： Spark 1.5.0是1.x线上的第6个发行版。这个版本共处理了来自230+contributors和80+机构的1400+个patches。Spark 1.5的许多改变都是围绕在提升Spark的性能、可用性以及操作稳定性。Spark 1.5.0焦点在Tungsten项目，它主... 阅读全文

posted @ 2015-09-09 17:35 stark_summer 阅读(471) 评论(0) 推荐(0)

zeppelin入门使用

摘要： Display Systemtext 默认使用scala语言输出text内容 shell html scala 输出html shell 输出html table scala shell table scala: shell: html: Manual动态表格使用表格模板文本输... 阅读全文

posted @ 2015-09-09 16:34 stark_summer 阅读(1363) 评论(0) 推荐(0)

2015年9月7日

spark standalone模式 zeppelin安装

摘要： 1. 前置条件None root accountApache MavenJava 1.72. 源码https://github.com/apache/incubator-zeppelingit clonehttps://github.com/apache/incubator-zeppelin3. 编... 阅读全文

posted @ 2015-09-07 16:04 stark_summer 阅读(510) 评论(0) 推荐(0)

北京第九次Spark meetup会议资料分享

摘要：活动时间北京第九次Spark Meetup活动将于2015年08月22日进行；下午14：00-18：00。活动地点　北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼活动内容 1. 《Keynote》，分享人：Sejun Ra ，CEO of NFLabs.com 2.... 阅读全文

posted @ 2015-09-07 10:01 stark_summer 阅读(179) 评论(0) 推荐(0)

2015年9月2日

启动hive命令报错 “Metastore contains multiple versions”

摘要：错误日志： Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metad... 阅读全文

posted @ 2015-09-02 14:41 stark_summer 阅读(674) 评论(0) 推荐(0)

2015年8月31日

最笨的方法解决使用Snappy 压缩方式报错“java.lang.UnsatisfiedLinkError: no snappyjava in java.library.path”

摘要：之前写过一篇这个文章：http://blog.csdn.net/stark_summer/article/details/47361603，那个时候 linux环境 spark 使用snappy方式压缩任然不好用，而今天我同事hive on hadoop 使用snappy压缩方式也报这个错，此刻的我... 阅读全文

posted @ 2015-08-31 16:56 stark_summer 阅读(2416) 评论(0) 推荐(0)

2015年8月29日

上海Spark Meetup第六次聚会

摘要：上海Spark Meetup第六次聚会将于2015年8月29日在上海市杨浦云计算创新基地发展有限公司举办。本次聚会由Intel举办。主讲题目：Tachyon: 内存为中心可容错的分布式存储系统摘要:在越来越多的大数据应用场景诸如机器学习,数据分析等, 内存成为保证和提升性能的关键. Tachyon正... 阅读全文

posted @ 2015-08-29 15:52 stark_summer 阅读(238) 评论(0) 推荐(0)

2015年8月28日

hadoop1 & hadoop2 fair-schduler 配置和使用

摘要： hadoop1配置 mapred-site.xml,增加如下内容 mapred.jobtracker.taskScheduler org.apache.hadoop.mapred.FairScheduler mapred.f... 阅读全文

posted @ 2015-08-28 11:03 stark_summer 阅读(515) 评论(0) 推荐(0)

2015年8月27日

上海第五次Spark meetup会议资料分享

摘要：大会地址　上海Spark Meetup第四次聚会将于2015年7月18日在太库科技创业发展有限公司举办，详细地址上海市浦东新区金科路2889弄3号长泰广场 C座12层，太库。本次聚会由七牛和Intel联合举办。大会主题 1. hadoop/spark生态的落地实践王团结(七牛)... 阅读全文

posted @ 2015-08-27 10:33 stark_summer 阅读(304) 评论(0) 推荐(0)

2015年8月25日

在 Databricks 可获得 Spark 1.5 预览版

摘要：我们兴奋地宣布,从今天开始,Apache Spark1.5.0的预览数据砖是可用的。我们的用户现在可以选择提供集群与Spark 1.5或先前的火花版本准备好几个点击。正式,Spark 1.5预计将在数周内公布,和社区所做的QA测试的版本。鉴于火花的快节奏发展,我们觉得这是很重要的,使我们的用户尽快开... 阅读全文

posted @ 2015-08-25 14:00 stark_summer 阅读(256) 评论(0) 推荐(0)

Exactly-once Spark Streaming from Apache Kafka

摘要：这篇文章我已经看过两遍了，收获颇多，抽个时间翻译下，先贴个原文链接吧，也给自己留个任务http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ ... 阅读全文

posted @ 2015-08-25 06:59 stark_summer 阅读(261) 评论(0) 推荐(0)

2015年8月24日

如何 tune spark jobs

摘要：最近几天阅读了下 cloudera一篇文章，个人感觉写的非常不错，我也懒着翻译了，感觉文章翻译成中文，会很墨迹和啰嗦，所以直接看原文吧http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/h... 阅读全文

posted @ 2015-08-24 07:32 stark_summer 阅读(185) 评论(0) 推荐(0)

2015年8月19日

我怎么能确保non-corrupt 文件传输 in linux

摘要：就是希望从别的机器上copy文件的是完整，不丢失的具体资料我就不整理了，看些如下参考链接，大概也了解了参考链接如下： http://serverfault.com/questions/289646/scp-is-a-checksum-required http://serverf... 阅读全文

posted @ 2015-08-19 18:17 stark_summer 阅读(221) 评论(0) 推荐(0)

2015年8月18日

java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString

摘要： hadoop mr 或者 spark 操作 hbase时候就出现这个错误这是hbase的bug,可在jira上看到该问题:https://issues.apache.org/jira/browse/HBASE-10304报错信息:15/08/17 19:28:33 ERROR y... 阅读全文

posted @ 2015-08-18 12:01 stark_summer 阅读(2305) 评论(0) 推荐(0)

2015年8月17日

hadoop点击AM所在node节点的logs链接报错 "Sorry, got error 404"

摘要：问题描述打开hadoop 集群地址,hostname:8088选择任何一个已经FINISHED或者FAILED的任务,然后点击 appplicationID ,比如:application_1439618500064_1100 进去ApplicationMaster 信息页面点击l... 阅读全文

posted @ 2015-08-17 16:40 stark_summer 阅读(219) 评论(0) 推荐(0)

hadoop MR 任务报错 "Error: java.io.IOException: Premature EOF from inputStream at org.apache.hadoop.io"

摘要：错误原文分析文件操作超租期，实际上就是data stream操作过程中文件被删掉了。通常是因为Mapred多个task操作同一个文件，一个task完成后删掉文件导致。这个错误跟dfs.datanode.max.transfer.threads参数到达上限有关。这个是datanode同... 阅读全文

posted @ 2015-08-17 13:09 stark_summer 阅读(5629) 评论(0) 推荐(0)

2015年8月15日

Spark北京Meetup第九次活动－Zeppelin主题

摘要：活动时间北京第九次Spark Meetup活动将于2015年08月22日进行；下午14：00-18：00。活动地点　北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼活动内容 1. 《Keynote》，分享人：Sejun Ra ，CEO of NFLabs.com 2.... 阅读全文

posted @ 2015-08-15 09:51 stark_summer 阅读(203) 评论(0) 推荐(0)

2015年8月14日

spark streaming updateStateByKey 用法

摘要： updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加在有新的数据信息进入或更新时，可以让用户保持想要的任何状。使用这个功能需要完成两步： 1) 定义状态：可以是任意数据类型 2) 定义状态更新函数：用一个函数... 阅读全文

posted @ 2015-08-14 19:12 stark_summer 阅读(1091) 评论(0) 推荐(0)

Tachyon在Spark中的作用（Tachyon: Reliable, Memory Speed Storage for Cluster Computing Frameworks 论文阅读翻译）

摘要：本人很少转载别人的文章，但看了这篇文章感觉非常不错，我不晓得这篇文章是否是此人原创翻译的，但给点个赞吧，加油转载于：http://blog.csdn.net/hust_sheng/article/details/47614925摘要： Tachyon是一种分布式文件系统，可以借助集群计算框架使得数... 阅读全文

posted @ 2015-08-14 08:22 stark_summer 阅读(400) 评论(0) 推荐(0)

2015年8月13日

hadoop about "Container does not exist."

摘要：场景描述：hadoop集群中正在运行的任务，点击“application_1438756578740_5947”链接，然后能看到ApplicationMaters信息，有N个Node节点在运行，然后点击任一个Node的logs链接，会报错如下：“Container does not ... 阅读全文

posted @ 2015-08-13 18:34 stark_summer 阅读(682) 评论(0) 推荐(0)

2015年8月11日

com.esotericsoftware.kryo.kryoexception java.util.ConcurentModificationException

摘要：最近有网友看我的“整合Kafka到Spark Streaming——代码示例和挑战”文章，讲 kafka对象放到 pool 并通过broadcast广播出去：然后在开发测试阶段报错如下：然后就找我，说“代码都跟你的差不多呀，为什么就报这个错呢？” 其实对于广播操作... 阅读全文

posted @ 2015-08-11 15:15 stark_summer 阅读(1829) 评论(0) 推荐(0)

2015年8月8日

使用Snappy 压缩方式报错“java.lang.UnsatisfiedLinkError: no snappyjava in java.library.path”

摘要：情况描述其实这个问题已经困扰我很久了，最近在公司Linux上搭建hadoop 和 spark环境的时候，我就遇到 spark提交作业到yarn 集群就报错这个错，当时已经安装snappy环境了，任何关于snappy静态库都编译了，这是我提交到spark mail list上的http... 阅读全文

posted @ 2015-08-08 20:09 stark_summer 阅读(1633) 评论(0) 推荐(1)

macox下编译snappy静态库

摘要：源码地址：https://github.com/google/snappy 下载 git clone https://github.com/google/snappy编译进入snappy源码目录，执行命令： ./autogen.sh 报错 “./autogen.sh: line 3... 阅读全文

posted @ 2015-08-08 17:40 stark_summer 阅读(505) 评论(0) 推荐(0)

2015年8月7日

docker on spark

摘要：从docker 仓库 pull 镜像 docker pull sequenceiq/spark:1.4.0 构建 docker 镜像 docker build –rm -t sequenceiq/spark:1.4.0 . -t 选项是你要构建的sequenceiq/spark i... 阅读全文

posted @ 2015-08-07 18:09 stark_summer 阅读(428) 评论(0) 推荐(0)

Install Docker Mac OS X

摘要：检查 Mac OS version 要求必须是 OS X 10.6 Snow Leopard or newer to run Boot2Docker安装 Boot2Docker列表内容下载地址：https://github.com/boot2docker/osx-installer... 阅读全文

posted @ 2015-08-07 14:40 stark_summer 阅读(493) 评论(0) 推荐(0)

2015年8月4日

HBase 1.1.1 发布(分布式数据库)

摘要： HBase 1.1.1 发布下载：hbase-1.1.1-bin.tar.gzhbase-1.1.1-bin.tar.gz.mdshbase-1.1.1-src.tar.gzhbase-1.1.1-src.tar.gz.mds更新内容如下：** 子任务 * [HBASE-13470] - High ... 阅读全文

posted @ 2015-08-04 11:29 stark_summer 阅读(488) 评论(0) 推荐(0)

2015年8月3日

spark streaming原理

摘要： Spark Streaming 是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。本节描述了Spark Streaming作业的执行流程。图1 Spark Streaming作业的执行流程具体流程：客户端提交作业后启... 阅读全文

posted @ 2015-08-03 10:25 stark_summer 阅读(297) 评论(0) 推荐(0)

2015年7月31日

spark RDD的原理

摘要： RDD详解RDD（Resilient Distributed Datasets弹性分布式数据集），是spark中最重要的概念，可以简单的把RDD理解成一个提供了许多操作接口的数据集合，和一般数据集不同的是，其实际数据分布存储于一批机器中（内存或磁盘中）。当然，RDD肯定不会这么简单，... 阅读全文

posted @ 2015-07-31 20:13 stark_summer 阅读(453) 评论(0) 推荐(0)

spark implementation hadoop setup,cleanup

摘要： def main(args: Array[String]) { val sc = new SparkContext("local", "xxx") val inputData = sc.textFile("hdfs://master:8020/data/spark/use... 阅读全文

posted @ 2015-07-31 17:51 stark_summer 阅读(487) 评论(0) 推荐(0)

2015年7月30日

最近hadoop遇到的issuses

摘要： https://issues.apache.org/jira/browse/YARN-182 https://issues.apache.org/jira/browse/YARN-903 https://issues.apache.org/jira/browse/HBASE-1030... 阅读全文

posted @ 2015-07-30 14:50 stark_summer 阅读(195) 评论(0) 推荐(0)

2015年7月17日

Spark的日志配置

摘要：在测试spark计算时，将作业提交到yarn（模式–master yarn-cluster）上，想查看print到控制台这是imposible的，因为作业是提交到yarn的集群上，so 去yarn集群上看日志是很麻烦的，但有特别想看下print的信息，方便调试或者别的目的在Spar... 阅读全文

posted @ 2015-07-17 16:42 stark_summer 阅读(3836) 评论(0) 推荐(0)

公告