随笔分类 - spark
摘要:企业介绍: 中国电信上海理想信息产业(集团)有限公司,成立于1999年,注册资本7000万元,是上海市投资规模较大的信息技术企业之一。母公司员工500多人,其中80%以上员工具有大学本科以上学历,从事软件开发人员超过50%,是一个典型的“知识密集型”企业。 通过整合公司内各事业部多年大型项目实施的整
阅读全文
摘要:package com.jason.example import org.apache.spark.sql.functions.broadcast class DFTest extends SparkInstance { import spark.implicits._ val df = Seq( ("jason", 1, "理想",0), (null, 2, "...
阅读全文
摘要:package com.jason.example import org.apache.spark.rdd.RDD class RddTest extends SparkInstance { val sc = spark.sparkContext val rdd = sc.parallelize(1 to 10) val rdd2 = sc.parallelize(9 to 15...
阅读全文
摘要:/usr/local/spark-2.3.0-bin-2.6.0-cdh5.8.0/bin/spark-submit \ --keytab /home/jj/tl.keytab \ --principal vf@FC.COM \ --class com.bb.sailer.engine_client.JobAa9d67c8c46843349043610b6d7b21dd \ --master ...
阅读全文
摘要:'spark.shuffle.service.enabled': 'true', 'spark.dynamicAllocation.enabled': 'false', 'spark.dynamicAllocation.initialExecutors': 50, 'spark.dynamicAllocation.minExecutors': 1, 'spark.dynamicAllocatio...
阅读全文
摘要:这里读取ftp文件的时候我们采用了sc.wholeTextFiles() 方法,若使用textFile() 方法,则会报错“java.io.IOException: Seek not supported”,ftp 的 InputStream 不支持seek(long:Long) 方法
阅读全文
摘要:1.序列化 对象在进行网络传输或进行持久化时需要进行序列化,如果采用序列化慢或者消耗大量字节的序列化格式,则会拖慢计算。 spark 提供了两种序列化类库 1). Java serialization 灵活,但是很慢 2) Kryo serialization 比java 快10倍,紧凑,不支持所有
阅读全文
摘要:最近在做一个需求,当spark程序在读数据或写数据时,将所读的条数或或所写的条数实时的展现出来,这里用到了SparkListener,sparklisten 可以获取spark 各个运行阶段的状态。 首先我们先通过代码来分析下各个方法的功能,再来说思路 package org.apache.spar
阅读全文
摘要:1.先上代码,存入mysql 参数解释 url: 连接mysql 的url user:登陆mysql的用户 password :登陆密码 dbtable: 要访问的数据库 点 表 batchsize : 当条数达到batchsize时会往mysql插入一次数据 truncate : 当savemod
阅读全文
摘要:1.dataframe 基本操作 2.用sql 访问dataframe 3.创建dataset 4.反射推断模式 5.通过编程指定schema来创建DF 6.直接从file执行sql 7.合并schema 8.dataframe 字符串拼接
阅读全文
摘要:关于spark 的详细操作请参照spark官网 scala 版本:2.11.8 1.添加spark maven依赖,如需访问hdfs,则添加hdfs依赖 2.sparkcontext 的创建 sc 使用结束,记得关闭 3.创建rdd 1)parallelized 方法 2)读取外部数据 一个放重要的
阅读全文
摘要:win10 重装了系统,在idea 中运行spark 往本地写文件时报上述错误,解决方法 官网下载 hadoop 在本地解压,然后下载hadooponwindows-master.zip ,解压,用其中的 bin 和 etc 替换hadoop 中的bin 和etc ,为hadoop配置环境变量, 重
阅读全文
摘要:软件环境 spark2.3.1 + hbase 2.0.1 这里我们用到的时hortonworks 的spark hbase connector 1.从github 下载shc源码, 2.用idea打开源码,下载依赖 因为源码中有部分依赖是来自hortonworks的,maven 中央仓库中下载不到
阅读全文
摘要:直接上代码 这里使用了scala 中的隐式转换,当调用sc.textFile(path,delimiter)时 sc会被自动包装成ContextExtensions ,并调用其textFile 方法
阅读全文
摘要:1.如何让 spark-sql 能够访问hive? 只需将hive-site.xml 放到 spark/conf 下即可,hive-site.xml 内容请参照hive集群搭建 2.要在spark 代码中使用sql操作hive,需要在初始化sparksession 时加上 3.spark开启hive
阅读全文
摘要:以下代码演示的是spark读取 text,csv,json,parquet格式的file 为dataframe, 将dataframe保存为对应格式的文件 上述将dataframe保存为text为也采取了csv格式,若要保存为text,dataframe中只能有一个String类型的字段,但是一般d
阅读全文
摘要:1.从同一个数据源尽量只创建一个rdd,后续业务逻辑复用该rdd2.如果要对某个rdd进行多次的transformation或action操作,应当持久化该rdd3.从数据源读取到rdd后,要尽早的进行filter操作以过滤掉无用的数据4.尽量避免使用shffle算子,使用shuffle时,应尽量减
阅读全文
摘要:1.首先需要创建spark.history.fs.logDirectory 2.修改hadoop-defaults.conf,添加如下内容 修改spark-env.sh 添加如下内容 -Dspark.history.ui.port=7777 #设置日志监控端口 -Dspark.history.ret
阅读全文
摘要:Logger.getRootLogger.setLevel(Level.ERROR) 通过在代码中设置log级别即可
阅读全文

浙公网安备 33010602011771号