随笔分类 -  Spark

电话试题
摘要:1、redis和mc的区别 https://segmentfault.com/q/1010000002588088/a-1020000002589415 MemcachedMemcached的优点:Memcached可以利用多核优势,单实例吞吐量极高,可以达到几十万QPS(取决于key、value的 阅读全文
posted @ 2019-12-14 16:48 骁枫 阅读(159) 评论(0) 推荐(0) 编辑
Spark sql 在yarn-cluster模式下找不到表
摘要:在hive里建一个数据库test,在数据库里建了一张表user,然后在Spark程序中使用Spark sql读取这张表 "select * form test.user" 当部署模式是spark stand模式和yarn-client模式时,程序可以正常运行,但yarn-cluster模式就报了找不 阅读全文
posted @ 2017-01-11 15:32 骁枫 阅读(1617) 评论(0) 推荐(0) 编辑
Flume整合Spark Streaming
摘要:Spark版本1.5.2,Flume版本:1.6 Flume agent配置文件:spool-8.51.conf maven文件: Java测试代码 打成jar包,启动Spark streaming程序 运行agent: cd到flume安装目录,执行。 复制文件到监控目录: 查看提交Spark 任 阅读全文
posted @ 2017-01-05 15:53 骁枫 阅读(1439) 评论(0) 推荐(0) 编辑
RDD:基于内存的集群计算容错抽象(转)
摘要:原文:http://shiyanjun.cn/archives/744.html 该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Com 阅读全文
posted @ 2016-10-14 15:04 骁枫 阅读(377) 评论(0) 推荐(0) 编辑
Spark 集群安装
摘要:一、安装jdk 二、安装scala 三、安装Spark 1、解压 tar -zxvf spark-1.5.1-bin-hadoop2.6.tgz 2、cp spark-env.sh.template spark-env.sh vi spark-env.sh 3、work节点,输入主机名或者ip cp 阅读全文
posted @ 2016-09-28 11:14 骁枫 阅读(268) 评论(0) 推荐(0) 编辑
Spark Idea Maven 开发环境搭建
摘要:一、安装jdk jdk版本最好是1.7以上,设置好环境变量,安装过程,略。 二、安装Maven 我选择的Maven版本是3.3.3,安装过程,略。 编辑Maven安装目录conf/settings.xml文件, 三、安装Idea 安装过程,略。 四、创建Spark项目 1、新建一个Spark项目, 阅读全文
posted @ 2016-09-19 11:49 骁枫 阅读(25658) 评论(3) 推荐(1) 编辑
Spark MLlib之协同过滤
摘要:原文:http://blog.selfup.cn/1001.html 什么是协同过滤 协同过滤(Collaborative Filtering, 简称CF),wiki上的定义是:简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评 阅读全文
posted @ 2016-05-10 15:46 骁枫 阅读(4527) 评论(0) 推荐(0) 编辑
Spark Rdd coalesce()方法和repartition()方法
摘要:在Spark的Rdd中,Rdd是分区的。 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。 有两种方法是可以重设Rdd的分区 阅读全文
posted @ 2016-04-15 11:20 骁枫 阅读(44353) 评论(1) 推荐(7) 编辑
Spark读取配置(转)
摘要:转自:https://github.com/keepsimplefocus/spark-sourcecodes-analysis/blob/master/markdowns/Spark%E8%AF%BB%E5%8F%96%E9%85%8D%E7%BD%AE.mdSpark读取配置我们知道,有一些配置... 阅读全文
posted @ 2016-01-07 09:46 骁枫 阅读(1443) 评论(0) 推荐(0) 编辑
Spark 调优(转)
摘要:Spark 调优返回原文英文原文:Tuning SparkBecause of the in-memory nature of most Spark computations, Spark programs can be bottlenecked by any resource in the clu... 阅读全文
posted @ 2015-12-23 15:00 骁枫 阅读(2131) 评论(0) 推荐(0) 编辑
spark Kryo serialization failed: Buffer overflow 错误
摘要:今天在写spark任务的时候遇到这么一个错误,我的spark版本是1.5.1.1 Exception in thread "main" com.esotericsoftware.kryo.KryoException: Buffer overflow. Available: 0, required: ... 阅读全文
posted @ 2015-12-14 17:35 骁枫 阅读(6996) 评论(0) 推荐(0) 编辑
spark sql加载avro
摘要:1、spark sql可以直接加载avro文件,之后再进行一系列的操作,示例: 阅读全文
posted @ 2015-12-03 11:45 骁枫 阅读(1047) 评论(0) 推荐(0) 编辑