随笔分类 -  spark

1
摘要:需求:将前些日子采集的评论存储到hbase中 思路: 先用fastjson解析评论,然后构造rdd,最后使用spark与phoenix交互,把数据存储到hbase中 部分数据: 1 [ 2 { 3 "referenceName": "Apple iPhone XR 64GB 黑色 移动联通电信4G全 阅读全文
posted @ 2019-05-04 19:52 tele 阅读(922) 评论(0) 推荐(0)
摘要:用的本地模式,pom.xml中添加了mysql驱动包,mysql已经开启,写入的时候发现用format("jdbc").save()的方式发现会有does not allow create table as select的异常,于是去官方文档上发现了使用jdbc()的方式,测试 正常,说明下Prop 阅读全文
posted @ 2019-02-19 14:39 tele 阅读(1246) 评论(0) 推荐(0)
摘要:根据官方文档的说法,要把hive-site.xml,core-site.xml,hdfs-site.xml拷贝到spark的conf目录下,保证mysql已经启动 java scala 阅读全文
posted @ 2019-02-18 20:23 tele 阅读(697) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-02-17 17:06 tele 阅读(1359) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-02-17 14:04 tele 阅读(851) 评论(0) 推荐(0)
摘要:网上找的大部分资料都很旧,最后翻了下文档只找到了说明 大概意思是1.6之后如果想要使用分区推断就要设置数据源的basePath,因此代码如下 java (注意basePath与实际的parquet文件的路径,basePath是分区推断列之前的路径) scala scala的版本用的本地路径,测试发现 阅读全文
posted @ 2019-02-15 20:08 tele 阅读(1115) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-02-14 22:08 tele 阅读(405) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-02-13 17:48 tele 阅读(1525) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-02-13 16:44 tele 阅读(573) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-02-12 19:06 tele 阅读(837) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-01-19 16:16 tele 阅读(1859) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-01-17 14:33 tele 阅读(264) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-01-16 20:32 tele 阅读(458) 评论(0) 推荐(0)
摘要:未使用rdd持久化 使用后 通过对比可以发现,未使用RDD持久化时,第一次计算比使用RDD持久化要快,但之后的计算显然要慢的多,差不多10倍的样子 代码 阅读全文
posted @ 2019-01-15 20:27 tele 阅读(311) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-01-14 21:18 tele 阅读(2705) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-01-14 21:16 tele 阅读(535) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-01-14 19:23 tele 阅读(1179) 评论(0) 推荐(0)
摘要:java scala 阅读全文
posted @ 2019-01-14 18:37 tele 阅读(2940) 评论(0) 推荐(0)
摘要:一.不使用spark 二.在spark集群上运行wordcount 新建一个maven工程 pom.xml 导出jar并上传,同时上传word.txt到hdfs上 编写scalawordcount.sh chmod 777 scalawordcount.sh ./scalawordcount.sh 阅读全文
posted @ 2018-12-23 19:16 tele 阅读(521) 评论(0) 推荐(0)
摘要:由于之前已经搭建过hadoop相关环境,现在搭建spark的预备工作只有scala环境了 一,配置scala环境 1.解压tar包后,编辑/etc/profile 2.source /etc/profile 3.scala -version 4.分发到其他两台机器上 二.搭建spark集群 1.配置 阅读全文
posted @ 2018-12-20 16:49 tele 阅读(519) 评论(0) 推荐(0)

1