随笔分类 - spark
spark学习博客
摘要:通过spark提交的spark开头的配置在程序启动后会添加到SparkConf中,但是hadoop相关的配置非spark开头会被过滤掉,但是只要在这些配置的key前面添加spark.hadoop.前缀,则该key就不会被过滤,会被放置到SparkConf中;最终会存储在Configuration 对
阅读全文
摘要:对于普通的java-action或者shell-action 都是支持的只要标准输出是"k1=v1"这中格式的就行: 现用test.py进行测试: 将以上test.py和workflow.xml放到hdfs的/user/lyy/oozie/test目录下,使用一下命令提交: 另外如果代码中有标准输出
阅读全文
摘要:1》基础环境准备: jdk1.8.0_101 maven 3.3.9scala2.11.8安装好上述软件,配置好环境变量,并检查是否生效。 2》配置maven:intellij idea maven配置及maven项目创建 3》设置maven编译内存 export MAVEN_OPTS="-Xmx2
阅读全文
摘要:一、前提 1.配置好maven:intellij idea maven配置及maven项目创建 2.下载好spark源码: 二、导入源码: 1.将下载的源码包spark-2.3.1.tgz解压(E:\spark-2.3.1.tgz\spark-2.3.1.tar)至E:\spark-2.3.1-sr
阅读全文
只有注册用户登录后才能阅读该文。
摘要:1.常用的方式通过sparksession读取外部文件或者数据生成dataset(这里就不讲了) 注: 生成Row对象的方法提一下:RowFactory.create(x,y,z),取Row中的数据使用row.getAs("列名")来获取对应的列值或者row.getInt(0),row.getStr
阅读全文
摘要:spark读取外部配置文件的方法 spark-submit --files /tmp/fileName /tmp/test.jar 使用spark提交时使用--files参数,spark会将将本地的文件上传的hdfs,然后分发给每个executor 在程序中只需要使用文件名获取数据 val file
阅读全文
摘要:1. 下载Maven 官方地址:http://maven.apache.org/download.cgi 解压并新建一个本地仓库文件夹 2.配置maven环境变量 3.配置配置本地仓库路径 4.配置阿里的maven仓库,自带的仓库连接太慢或者连接不上 5.在IntelliJ IDEA中配置maven
阅读全文
摘要:使用es-hadoop插件,主要使用elasticsearch-spark-20_2.11-6.2.x.jar 官网:https://www.elastic.co/guide/en/elasticsearch/hadoop/current/reference.html 关于ES详细的配置参数 大家可
阅读全文
摘要://返回有效的参数,会通过打印的方式给spark-class的 exec "${CMD[@]}"执行 /** '\0'和空格不是同一个概念。 '\0'表示字符串结束符,代表字符串结束,而空格是一个普通字符,显示在文本中可以选中。 '\0'的ASCII码为0,空格的ASCII码为32,两个不是同一个字
阅读全文
摘要:spark-shell/spark-submit/pyspark等关系如下: 初始化环境变量SPARK_SCALA_VERSION, 调用%SPARK_HOME%/conf/spark-env.sh加载用户自定义环境变量
阅读全文
摘要:spark-shell 作用: 调用spark-submit脚本,如下参数 --classorg.apache.spark.repl.Main --name "Spark shell" "$@",如下: 具体流程是: #1 捕获终端信号,执行退出方法,恢复一些操作 #2 保存终端配置,当cygwin
阅读全文
摘要:本文转自:http://ifeve.com/spark-mesos-spark/ 在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行。 在Mesos集群中使用Spark的主要优势有: 可以在Spark以及其他框架(frameworks)之间动态划分资源。
阅读全文
摘要:通过Ambari(HDP)或者Cloudera Management (CDH)等集群管理服务安装和部署在此不多介绍,只需要在界面直接操作和配置即可,本文主要通过原生安装,熟悉安装配置流程。 1.选取三台服务器(CentOS系统64位) 114.55.246.88 主节点 114.55.246.77
阅读全文
摘要:1 import java.io.DataInputStream; 2 import java.io.EOFException; 3 import java.io.FileNotFoundException; 4 import java.io.PrintStream; 5 6 import org.apache.commons.lang.StringUtils; 7...
阅读全文
摘要:一.使用jdbcRDD的接口: 二.使用通过sparksession的接口:
阅读全文
摘要:1.安装jdk(配置JAVA_HOME,CLASSPATH,path) 2.安装scala(配置SCALA_HOME,path) 3.安装spark Spark的安装非常简单,直接去Download Apache Spark。有两个步骤: ● 选择好对应Hadoop版本的Spark版本,如下图中所示
阅读全文
摘要:1 SparkSession spark = SparkSession 2 .builder() 3 .master("local[*]") 4 .enableHiveSupport() 5 .config("spark.sql.warehouse.d...
阅读全文
摘要:使用spark引擎查询hive有以下几种方式:1>使用spark-sql(spark sql cli)2>使用spark-thrift提交查询sql3>使用hive on spark(即hive本身设置执行引擎为spark)针对第一种情况:1>ambari 已经支持,不需要特殊配置;2>cdh不支持
阅读全文
摘要:内置过滤器的使用 HBase为筛选数据提供了一组过滤器,通过这个过滤器可以在HBase中数据的多个维度(行、列、数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键、列名、时间戳定位)。通常来说,通过行键、值来筛选数据的应用场景较多。需要说明的是
阅读全文

浙公网安备 33010602011771号