随笔分类 -  spark

摘要:企业介绍: 中国电信上海理想信息产业(集团)有限公司,成立于1999年,注册资本7000万元,是上海市投资规模较大的信息技术企业之一。母公司员工500多人,其中80%以上员工具有大学本科以上学历,从事软件开发人员超过50%,是一个典型的“知识密集型”企业。 通过整合公司内各事业部多年大型项目实施的整 阅读全文
posted @ 2020-06-14 22:35 生心无住 阅读(1446) 评论(0) 推荐(0)
摘要:package com.jason.example import org.apache.spark.sql.functions.broadcast class DFTest extends SparkInstance { import spark.implicits._ val df = Seq( ("jason", 1, "理想",0), (null, 2, "... 阅读全文
posted @ 2019-02-27 20:56 生心无住 阅读(1554) 评论(0) 推荐(0)
摘要:package com.jason.example import org.apache.spark.rdd.RDD class RddTest extends SparkInstance { val sc = spark.sparkContext val rdd = sc.parallelize(1 to 10) val rdd2 = sc.parallelize(9 to 15... 阅读全文
posted @ 2019-02-27 20:55 生心无住 阅读(590) 评论(0) 推荐(0)
摘要:/usr/local/spark-2.3.0-bin-2.6.0-cdh5.8.0/bin/spark-submit \ --keytab /home/jj/tl.keytab \ --principal vf@FC.COM \ --class com.bb.sailer.engine_client.JobAa9d67c8c46843349043610b6d7b21dd \ --master ... 阅读全文
posted @ 2019-01-09 15:39 生心无住 阅读(3361) 评论(0) 推荐(0)
摘要:'spark.shuffle.service.enabled': 'true', 'spark.dynamicAllocation.enabled': 'false', 'spark.dynamicAllocation.initialExecutors': 50, 'spark.dynamicAllocation.minExecutors': 1, 'spark.dynamicAllocatio... 阅读全文
posted @ 2019-01-09 14:26 生心无住 阅读(276) 评论(0) 推荐(0)
摘要:1.hive动态分区,只需进行以下设置 阅读全文
posted @ 2019-01-08 21:46 生心无住 阅读(263) 评论(0) 推荐(0)
摘要:这里读取ftp文件的时候我们采用了sc.wholeTextFiles() 方法,若使用textFile() 方法,则会报错“java.io.IOException: Seek not supported”,ftp 的 InputStream 不支持seek(long:Long) 方法 阅读全文
posted @ 2018-12-13 14:42 生心无住 阅读(2851) 评论(0) 推荐(0)
摘要:1.序列化 对象在进行网络传输或进行持久化时需要进行序列化,如果采用序列化慢或者消耗大量字节的序列化格式,则会拖慢计算。 spark 提供了两种序列化类库 1). Java serialization 灵活,但是很慢 2) Kryo serialization 比java 快10倍,紧凑,不支持所有 阅读全文
posted @ 2018-11-29 00:02 生心无住 阅读(338) 评论(0) 推荐(0)
摘要:最近在做一个需求,当spark程序在读数据或写数据时,将所读的条数或或所写的条数实时的展现出来,这里用到了SparkListener,sparklisten 可以获取spark 各个运行阶段的状态。 首先我们先通过代码来分析下各个方法的功能,再来说思路 package org.apache.spar 阅读全文
posted @ 2018-11-28 00:27 生心无住 阅读(3470) 评论(0) 推荐(1)
摘要:1.先上代码,存入mysql 参数解释 url: 连接mysql 的url user:登陆mysql的用户 password :登陆密码 dbtable: 要访问的数据库 点 表 batchsize : 当条数达到batchsize时会往mysql插入一次数据 truncate : 当savemod 阅读全文
posted @ 2018-11-07 15:36 生心无住 阅读(2453) 评论(0) 推荐(0)
摘要:1.dataframe 基本操作 2.用sql 访问dataframe 3.创建dataset 4.反射推断模式 5.通过编程指定schema来创建DF 6.直接从file执行sql 7.合并schema 8.dataframe 字符串拼接 阅读全文
posted @ 2018-10-28 11:46 生心无住 阅读(715) 评论(0) 推荐(0)
摘要:关于spark 的详细操作请参照spark官网 scala 版本:2.11.8 1.添加spark maven依赖,如需访问hdfs,则添加hdfs依赖 2.sparkcontext 的创建 sc 使用结束,记得关闭 3.创建rdd 1)parallelized 方法 2)读取外部数据 一个放重要的 阅读全文
posted @ 2018-10-27 10:31 生心无住 阅读(939) 评论(0) 推荐(0)
摘要:win10 重装了系统,在idea 中运行spark 往本地写文件时报上述错误,解决方法 官网下载 hadoop 在本地解压,然后下载hadooponwindows-master.zip ,解压,用其中的 bin 和 etc 替换hadoop 中的bin 和etc ,为hadoop配置环境变量, 重 阅读全文
posted @ 2018-10-22 22:13 生心无住 阅读(1578) 评论(0) 推荐(0)
摘要:软件环境 spark2.3.1 + hbase 2.0.1 这里我们用到的时hortonworks 的spark hbase connector 1.从github 下载shc源码, 2.用idea打开源码,下载依赖 因为源码中有部分依赖是来自hortonworks的,maven 中央仓库中下载不到 阅读全文
posted @ 2018-09-26 16:16 生心无住 阅读(1528) 评论(0) 推荐(0)
摘要:直接上代码 这里使用了scala 中的隐式转换,当调用sc.textFile(path,delimiter)时 sc会被自动包装成ContextExtensions ,并调用其textFile 方法 阅读全文
posted @ 2018-09-15 23:20 生心无住 阅读(4818) 评论(0) 推荐(1)
摘要:1.如何让 spark-sql 能够访问hive? 只需将hive-site.xml 放到 spark/conf 下即可,hive-site.xml 内容请参照hive集群搭建 2.要在spark 代码中使用sql操作hive,需要在初始化sparksession 时加上 3.spark开启hive 阅读全文
posted @ 2018-09-11 11:12 生心无住 阅读(1127) 评论(0) 推荐(0)
摘要:以下代码演示的是spark读取 text,csv,json,parquet格式的file 为dataframe, 将dataframe保存为对应格式的文件 上述将dataframe保存为text为也采取了csv格式,若要保存为text,dataframe中只能有一个String类型的字段,但是一般d 阅读全文
posted @ 2018-09-01 14:30 生心无住 阅读(7983) 评论(1) 推荐(0)
摘要:1.从同一个数据源尽量只创建一个rdd,后续业务逻辑复用该rdd2.如果要对某个rdd进行多次的transformation或action操作,应当持久化该rdd3.从数据源读取到rdd后,要尽早的进行filter操作以过滤掉无用的数据4.尽量避免使用shffle算子,使用shuffle时,应尽量减 阅读全文
posted @ 2018-08-13 23:36 生心无住 阅读(184) 评论(0) 推荐(0)
摘要:1.首先需要创建spark.history.fs.logDirectory 2.修改hadoop-defaults.conf,添加如下内容 修改spark-env.sh 添加如下内容 -Dspark.history.ui.port=7777 #设置日志监控端口 -Dspark.history.ret 阅读全文
posted @ 2018-08-09 21:36 生心无住 阅读(1084) 评论(0) 推荐(0)
摘要:Logger.getRootLogger.setLevel(Level.ERROR) 通过在代码中设置log级别即可 阅读全文
posted @ 2018-08-09 17:05 生心无住 阅读(4315) 评论(0) 推荐(1)