spark - 随笔分类 - 一直爬行的蜗牛牛

通过spark-submit提交hadoop配置的方法

摘要：通过spark提交的spark开头的配置在程序启动后会添加到SparkConf中，但是hadoop相关的配置非spark开头会被过滤掉，但是只要在这些配置的key前面添加spark.hadoop.前缀，则该key就不会被过滤，会被放置到SparkConf中；最终会存储在Configuration 对阅读全文

posted @ 2018-12-17 17:55 一直爬行的蜗牛牛阅读(2046) 评论(0) 推荐(0)

oozie捕获标准输出&异常capture-output

摘要：对于普通的java-action或者shell-action 都是支持的只要标准输出是"k1=v1"这中格式的就行：现用test.py进行测试：将以上test.py和workflow.xml放到hdfs的/user/lyy/oozie/test目录下，使用一下命令提交：另外如果代码中有标准输出阅读全文

posted @ 2018-12-10 12:01 一直爬行的蜗牛牛阅读(1965) 评论(0) 推荐(0)

使用maven&&make-distribution.sh编译打包spark源码

摘要：1》基础环境准备： jdk1.8.0_101 maven 3.3.9scala2.11.8安装好上述软件，配置好环境变量，并检查是否生效。 2》配置maven:intellij idea maven配置及maven项目创建 3》设置maven编译内存 export MAVEN_OPTS="-Xmx2 阅读全文

posted @ 2018-11-05 16:09 一直爬行的蜗牛牛阅读(2601) 评论(1) 推荐(1)

windows下在idea用maven导入spark2.3.1源码并编译并运行示例

摘要：一、前提 1.配置好maven：intellij idea maven配置及maven项目创建 2.下载好spark源码: 二、导入源码： 1.将下载的源码包spark-2.3.1.tgz解压（E:\spark-2.3.1.tgz\spark-2.3.1.tar）至E:\spark-2.3.1-sr 阅读全文

posted @ 2018-10-26 15:54 一直爬行的蜗牛牛阅读(4684) 评论(0) 推荐(1)

使用sparkstreaming实时分析yarn日志并写入ES

只有注册用户登录后才能阅读该文。

posted @ 2018-10-19 10:32 一直爬行的蜗牛牛阅读(12) 评论(0) 推荐(0)

生成dataset的几种方式

摘要：1.常用的方式通过sparksession读取外部文件或者数据生成dataset(这里就不讲了）注：生成Row对象的方法提一下：RowFactory.create(x,y,z)，取Row中的数据使用row.getAs("列名")来获取对应的列值或者row.getInt(0),row.getStr 阅读全文

posted @ 2018-10-19 09:38 一直爬行的蜗牛牛阅读(6241) 评论(0) 推荐(0)

spark读取外部配置文件的方法

摘要：spark读取外部配置文件的方法 spark-submit --files /tmp/fileName /tmp/test.jar 使用spark提交时使用--files参数,spark会将将本地的文件上传的hdfs,然后分发给每个executor 在程序中只需要使用文件名获取数据 val file 阅读全文

posted @ 2018-10-18 11:46 一直爬行的蜗牛牛阅读(15318) 评论(0) 推荐(0)

intellij idea maven配置及maven项目创建

摘要：1. 下载Maven 官方地址：http://maven.apache.org/download.cgi 解压并新建一个本地仓库文件夹 2.配置maven环境变量 3.配置配置本地仓库路径 4.配置阿里的maven仓库，自带的仓库连接太慢或者连接不上 5.在IntelliJ IDEA中配置maven 阅读全文

posted @ 2018-10-18 10:15 一直爬行的蜗牛牛阅读(6306) 评论(0) 推荐(0)

spark写入ES(动态模板）

摘要：使用es-hadoop插件，主要使用elasticsearch-spark-20_2.11-6.2.x.jar 官网：https://www.elastic.co/guide/en/elasticsearch/hadoop/current/reference.html 关于ES详细的配置参数大家可阅读全文

posted @ 2018-09-30 09:33 一直爬行的蜗牛牛阅读(5677) 评论(0) 推荐(0)

org.apache.spark.launcher.Main源码分析

摘要：//返回有效的参数，会通过打印的方式给spark-class的 exec "${CMD[@]}"执行 /** '\0'和空格不是同一个概念。 '\0'表示字符串结束符，代表字符串结束，而空格是一个普通字符，显示在文本中可以选中。 '\0'的ASCII码为0，空格的ASCII码为32，两个不是同一个字阅读全文

posted @ 2018-09-29 16:26 一直爬行的蜗牛牛阅读(1453) 评论(0) 推荐(0)

spark相关脚本解析

摘要：spark-shell/spark-submit/pyspark等关系如下：初始化环境变量SPARK_SCALA_VERSION，调用%SPARK_HOME%/conf/spark-env.sh加载用户自定义环境变量阅读全文

posted @ 2018-09-29 10:25 一直爬行的蜗牛牛阅读(1083) 评论(0) 推荐(0)

spark-shell解析

摘要：spark-shell 作用：调用spark-submit脚本，如下参数 --classorg.apache.spark.repl.Main --name "Spark shell" "$@"，如下：具体流程是： #1 捕获终端信号，执行退出方法，恢复一些操作 #2 保存终端配置，当cygwin 阅读全文

posted @ 2018-09-29 10:13 一直爬行的蜗牛牛阅读(1352) 评论(0) 推荐(0)

《Spark 官方文档》在Mesos上运行Spark

摘要：本文转自：http://ifeve.com/spark-mesos-spark/ 在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行。在Mesos集群中使用Spark的主要优势有：可以在Spark以及其他框架（frameworks）之间动态划分资源。阅读全文

posted @ 2018-09-12 17:48 一直爬行的蜗牛牛阅读(1010) 评论(0) 推荐(0)

spark集群安装部署

摘要：通过Ambari(HDP)或者Cloudera Management (CDH)等集群管理服务安装和部署在此不多介绍，只需要在界面直接操作和配置即可，本文主要通过原生安装，熟悉安装配置流程。 1.选取三台服务器（CentOS系统64位） 114.55.246.88 主节点 114.55.246.77 阅读全文

posted @ 2018-09-12 17:21 一直爬行的蜗牛牛阅读(5744) 评论(0) 推荐(3)

yarn logs -applicationId命令java版本简单实现

摘要：1 import java.io.DataInputStream; 2 import java.io.EOFException; 3 import java.io.FileNotFoundException; 4 import java.io.PrintStream; 5 6 import org.apache.commons.lang.StringUtils; 7... 阅读全文

posted @ 2018-09-12 16:28 一直爬行的蜗牛牛阅读(3614) 评论(1) 推荐(0)

spark操作数据库的几种方法

摘要：一.使用jdbcRDD的接口：二.使用通过sparksession的接口：阅读全文

posted @ 2018-09-12 11:43 一直爬行的蜗牛牛阅读(3011) 评论(0) 推荐(0)

win7下配置spark

摘要：1.安装jdk(配置JAVA_HOME,CLASSPATH,path) 2.安装scala(配置SCALA_HOME,path) 3.安装spark Spark的安装非常简单，直接去Download Apache Spark。有两个步骤： ● 选择好对应Hadoop版本的Spark版本，如下图中所示阅读全文

posted @ 2018-09-10 16:14 一直爬行的蜗牛牛阅读(1179) 评论(0) 推荐(0)

win7下本地运行spark以及spark.sql.warehouse.dir设置

摘要：1 SparkSession spark = SparkSession 2 .builder() 3 .master("local[*]") 4 .enableHiveSupport() 5 .config("spark.sql.warehouse.d... 阅读全文

posted @ 2018-09-10 16:00 一直爬行的蜗牛牛阅读(4223) 评论(0) 推荐(0)

hive使用spark引擎的几种情况

摘要：使用spark引擎查询hive有以下几种方式：1>使用spark-sql(spark sql cli)2>使用spark-thrift提交查询sql3>使用hive on spark(即hive本身设置执行引擎为spark)针对第一种情况：1>ambari 已经支持，不需要特殊配置；2>cdh不支持阅读全文

posted @ 2018-09-06 15:07 一直爬行的蜗牛牛阅读(21070) 评论(0) 推荐(0)

sparksql读写hbase

摘要：内置过滤器的使用 HBase为筛选数据提供了一组过滤器，通过这个过滤器可以在HBase中数据的多个维度（行、列、数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键、列名、时间戳定位）。通常来说，通过行键、值来筛选数据的应用场景较多。需要说明的是阅读全文

posted @ 2018-09-05 16:08 一直爬行的蜗牛牛阅读(5000) 评论(0) 推荐(0)

一直爬行的蜗牛牛

随笔分类 - spark

公告