spark - 随笔分类 - 生心无住

# spark + TDengine的使用

摘要：企业介绍：中国电信上海理想信息产业（集团）有限公司，成立于1999年，注册资本7000万元，是上海市投资规模较大的信息技术企业之一。母公司员工500多人，其中80％以上员工具有大学本科以上学历，从事软件开发人员超过50％，是一个典型的“知识密集型”企业。通过整合公司内各事业部多年大型项目实施的整阅读全文

posted @ 2020-06-14 22:35 生心无住阅读(1446) 评论(0) 推荐(0)

dataframe 基本操作

摘要：package com.jason.example import org.apache.spark.sql.functions.broadcast class DFTest extends SparkInstance { import spark.implicits._ val df = Seq( ("jason", 1, "理想",0), (null, 2, "... 阅读全文

posted @ 2019-02-27 20:56 生心无住阅读(1554) 评论(0) 推荐(0)

rdd 基本操作

摘要：package com.jason.example import org.apache.spark.rdd.RDD class RddTest extends SparkInstance { val sc = spark.sparkContext val rdd = sc.parallelize(1 to 10) val rdd2 = sc.parallelize(9 to 15... 阅读全文

posted @ 2019-02-27 20:55 生心无住阅读(590) 评论(0) 推荐(0)

spark 通过keytab 获取认证

摘要：/usr/local/spark-2.3.0-bin-2.6.0-cdh5.8.0/bin/spark-submit \ --keytab /home/jj/tl.keytab \ --principal vf@FC.COM \ --class com.bb.sailer.engine_client.JobAa9d67c8c46843349043610b6d7b21dd \ --master ... 阅读全文

posted @ 2019-01-09 15:39 生心无住阅读(3360) 评论(0) 推荐(0)

spark 资源动态分配

摘要：'spark.shuffle.service.enabled': 'true', 'spark.dynamicAllocation.enabled': 'false', 'spark.dynamicAllocation.initialExecutors': 50, 'spark.dynamicAllocation.minExecutors': 1, 'spark.dynamicAllocatio... 阅读全文

posted @ 2019-01-09 14:26 生心无住阅读(276) 评论(0) 推荐(0)

spark 操作hive

摘要：1.hive动态分区，只需进行以下设置阅读全文

posted @ 2019-01-08 21:46 生心无住阅读(263) 评论(0) 推荐(0)

spark 读取 ftp

摘要：这里读取ftp文件的时候我们采用了sc.wholeTextFiles() 方法，若使用textFile() 方法，则会报错“java.io.IOException: Seek not supported”，ftp 的 InputStream 不支持seek(long:Long) 方法阅读全文

posted @ 2018-12-13 14:42 生心无住阅读(2851) 评论(0) 推荐(0)

spark 调优（官方文档）

摘要：1.序列化对象在进行网络传输或进行持久化时需要进行序列化，如果采用序列化慢或者消耗大量字节的序列化格式，则会拖慢计算。 spark 提供了两种序列化类库 1）. Java serialization 灵活，但是很慢 2） Kryo serialization 比java 快10倍，紧凑，不支持所有阅读全文

posted @ 2018-11-29 00:02 生心无住阅读(338) 评论(0) 推荐(0)

spark listener

摘要：最近在做一个需求，当spark程序在读数据或写数据时，将所读的条数或或所写的条数实时的展现出来，这里用到了SparkListener，sparklisten 可以获取spark 各个运行阶段的状态。首先我们先通过代码来分析下各个方法的功能，再来说思路 package org.apache.spar 阅读全文

posted @ 2018-11-28 00:27 生心无住阅读(3469) 评论(0) 推荐(1)

spark 存取mysql

摘要：1.先上代码，存入mysql 参数解释 url：连接mysql 的url user：登陆mysql的用户 password ：登陆密码 dbtable: 要访问的数据库点表 batchsize ：当条数达到batchsize时会往mysql插入一次数据 truncate ：当savemod 阅读全文

posted @ 2018-11-07 15:36 生心无住阅读(2453) 评论(0) 推荐(0)

spark 基本操作（二）

摘要：1.dataframe 基本操作 2.用sql 访问dataframe 3.创建dataset 4.反射推断模式 5.通过编程指定schema来创建DF 6.直接从file执行sql 7.合并schema 8.dataframe 字符串拼接阅读全文

posted @ 2018-10-28 11:46 生心无住阅读(715) 评论(0) 推荐(0)

spark 基本操作整理

摘要：关于spark 的详细操作请参照spark官网 scala 版本：2.11.8 1.添加spark maven依赖，如需访问hdfs，则添加hdfs依赖 2.sparkcontext 的创建 sc 使用结束，记得关闭 3.创建rdd 1）parallelized 方法 2）读取外部数据一个放重要的阅读全文

posted @ 2018-10-27 10:31 生心无住阅读(939) 评论(0) 推荐(0)

window 运行spark报错

摘要：win10 重装了系统，在idea 中运行spark 往本地写文件时报上述错误，解决方法官网下载 hadoop 在本地解压，然后下载hadooponwindows-master.zip ,解压，用其中的 bin 和 etc 替换hadoop 中的bin 和etc ，为hadoop配置环境变量，重阅读全文

posted @ 2018-10-22 22:13 生心无住阅读(1578) 评论(0) 推荐(0)

spark + hbase

摘要：软件环境 spark2.3.1 + hbase 2.0.1 这里我们用到的时hortonworks 的spark hbase connector 1.从github 下载shc源码， 2.用idea打开源码，下载依赖因为源码中有部分依赖是来自hortonworks的，maven 中央仓库中下载不到阅读全文

posted @ 2018-09-26 16:16 生心无住阅读(1528) 评论(0) 推荐(0)

spark sc.textFile() 指定换行符

摘要：直接上代码这里使用了scala 中的隐式转换，当调用sc.textFile(path,delimiter)时 sc会被自动包装成ContextExtensions ，并调用其textFile 方法阅读全文

posted @ 2018-09-15 23:20 生心无住阅读(4818) 评论(0) 推荐(1)

spark + hive

摘要：1.如何让 spark-sql 能够访问hive？只需将hive-site.xml 放到 spark/conf 下即可，hive-site.xml 内容请参照hive集群搭建 2.要在spark 代码中使用sql操作hive，需要在初始化sparksession 时加上 3.spark开启hive 阅读全文

posted @ 2018-09-11 11:12 生心无住阅读(1127) 评论(0) 推荐(0)

spark 读写text,csv,json,parquet

摘要：以下代码演示的是spark读取 text，csv，json，parquet格式的file 为dataframe，将dataframe保存为对应格式的文件上述将dataframe保存为text为也采取了csv格式，若要保存为text，dataframe中只能有一个String类型的字段，但是一般d 阅读全文

posted @ 2018-09-01 14:30 生心无住阅读(7983) 评论(1) 推荐(0)

spark 性能优化简要总结

摘要：1.从同一个数据源尽量只创建一个rdd，后续业务逻辑复用该rdd2.如果要对某个rdd进行多次的transformation或action操作，应当持久化该rdd3.从数据源读取到rdd后，要尽早的进行filter操作以过滤掉无用的数据4.尽量避免使用shffle算子，使用shuffle时，应尽量减阅读全文

posted @ 2018-08-13 23:36 生心无住阅读(184) 评论(0) 推荐(0)

spark 开启job history

摘要：1.首先需要创建spark.history.fs.logDirectory 2.修改hadoop-defaults.conf,添加如下内容修改spark-env.sh 添加如下内容 -Dspark.history.ui.port=7777 #设置日志监控端口 -Dspark.history.ret 阅读全文

posted @ 2018-08-09 21:36 生心无住阅读(1084) 评论(0) 推荐(0)

spark 更改日志输出级别

摘要：Logger.getRootLogger.setLevel(Level.ERROR) 通过在代码中设置log级别即可阅读全文

posted @ 2018-08-09 17:05 生心无住阅读(4315) 评论(0) 推荐(1)

生心无住

随笔分类 - spark

公告