spark - 随笔分类 - tele

毕设三: spark与phoenix集成插入数据/解析json数组

摘要：需求:将前些日子采集的评论存储到hbase中思路: 先用fastjson解析评论,然后构造rdd,最后使用spark与phoenix交互,把数据存储到hbase中部分数据: 1 [ 2 { 3 "referenceName": "Apple iPhone XR 64GB 黑色移动联通电信4G全阅读全文

posted @ 2019-05-04 19:52 tele 阅读(922) 评论(0) 推荐(0)

sparksql jdbc数据源

摘要：用的本地模式,pom.xml中添加了mysql驱动包,mysql已经开启,写入的时候发现用format("jdbc").save()的方式发现会有does not allow create table as select的异常,于是去官方文档上发现了使用jdbc()的方式,测试正常,说明下Prop 阅读全文

posted @ 2019-02-19 14:39 tele 阅读(1246) 评论(0) 推荐(0)

sparksql hive作为数据源

摘要：根据官方文档的说法,要把hive-site.xml,core-site.xml,hdfs-site.xml拷贝到spark的conf目录下,保证mysql已经启动 java scala 阅读全文

posted @ 2019-02-18 20:23 tele 阅读(697) 评论(0) 推荐(0)

sparksql json 合并json数据

摘要：java scala 阅读全文

posted @ 2019-02-17 17:06 tele 阅读(1359) 评论(0) 推荐(0)

sparksql parquet 合并元数据

摘要：java scala 阅读全文

posted @ 2019-02-17 14:04 tele 阅读(851) 评论(0) 推荐(0)

sparksql parquet 分区推断Partition Discovery

摘要：网上找的大部分资料都很旧,最后翻了下文档只找到了说明大概意思是1.6之后如果想要使用分区推断就要设置数据源的basePath,因此代码如下 java (注意basePath与实际的parquet文件的路径,basePath是分区推断列之前的路径) scala scala的版本用的本地路径,测试发现阅读全文

posted @ 2019-02-15 20:08 tele 阅读(1115) 评论(0) 推荐(0)

sparksql load/save

摘要：java scala 阅读全文

posted @ 2019-02-14 22:08 tele 阅读(405) 评论(0) 推荐(0)

sparksql 动态设置schema将rdd转换成dataset/dataframe

摘要：java scala 阅读全文

posted @ 2019-02-13 17:48 tele 阅读(1525) 评论(0) 推荐(0)

sparksql 用反射的方式将rdd转换成dataset/dataframe

摘要：java scala 阅读全文

posted @ 2019-02-13 16:44 tele 阅读(573) 评论(0) 推荐(0)

sparksql dataset

摘要：java scala 阅读全文

posted @ 2019-02-12 19:06 tele 阅读(837) 评论(0) 推荐(0)

spark 分组取topn

摘要：java scala 阅读全文

posted @ 2019-01-19 16:16 tele 阅读(1859) 评论(0) 推荐(0)

spark 基于key排序的wordcount

摘要：java scala 阅读全文

posted @ 2019-01-17 14:33 tele 阅读(264) 评论(0) 推荐(0)

spark accumulator累加器

摘要：java scala 阅读全文

posted @ 2019-01-16 20:32 tele 阅读(458) 评论(0) 推荐(0)

spark rdd持久化的简单对比

摘要：未使用rdd持久化使用后通过对比可以发现,未使用RDD持久化时,第一次计算比使用RDD持久化要快,但之后的计算显然要慢的多,差不多10倍的样子代码阅读全文

posted @ 2019-01-15 20:27 tele 阅读(311) 评论(0) 推荐(0)

spark action之saveastextfile

摘要：java scala 阅读全文

posted @ 2019-01-14 21:18 tele 阅读(2705) 评论(0) 推荐(0)

spark action之countbykey

摘要：java scala 阅读全文

posted @ 2019-01-14 21:16 tele 阅读(535) 评论(0) 推荐(0)

spark cogroup算子

摘要：java scala 阅读全文

posted @ 2019-01-14 19:23 tele 阅读(1179) 评论(0) 推荐(0)

spark join算子

摘要：java scala 阅读全文

posted @ 2019-01-14 18:37 tele 阅读(2940) 评论(0) 推荐(0)

scala wordcount

摘要：一.不使用spark 二.在spark集群上运行wordcount 新建一个maven工程 pom.xml 导出jar并上传,同时上传word.txt到hdfs上编写scalawordcount.sh chmod 777 scalawordcount.sh ./scalawordcount.sh 阅读全文

posted @ 2018-12-23 19:16 tele 阅读(521) 评论(0) 推荐(0)

spark 2.0.2 集群搭建

摘要：由于之前已经搭建过hadoop相关环境,现在搭建spark的预备工作只有scala环境了一,配置scala环境 1.解压tar包后,编辑/etc/profile 2.source /etc/profile 3.scala -version 4.分发到其他两台机器上二.搭建spark集群 1.配置阅读全文

posted @ 2018-12-20 16:49 tele 阅读(519) 评论(0) 推荐(0)

code never lies

随笔分类 - spark

公告