随笔分类 - spark
1
摘要:需求:将前些日子采集的评论存储到hbase中 思路: 先用fastjson解析评论,然后构造rdd,最后使用spark与phoenix交互,把数据存储到hbase中 部分数据: 1 [ 2 { 3 "referenceName": "Apple iPhone XR 64GB 黑色 移动联通电信4G全
阅读全文
摘要:用的本地模式,pom.xml中添加了mysql驱动包,mysql已经开启,写入的时候发现用format("jdbc").save()的方式发现会有does not allow create table as select的异常,于是去官方文档上发现了使用jdbc()的方式,测试 正常,说明下Prop
阅读全文
摘要:根据官方文档的说法,要把hive-site.xml,core-site.xml,hdfs-site.xml拷贝到spark的conf目录下,保证mysql已经启动 java scala
阅读全文
摘要:网上找的大部分资料都很旧,最后翻了下文档只找到了说明 大概意思是1.6之后如果想要使用分区推断就要设置数据源的basePath,因此代码如下 java (注意basePath与实际的parquet文件的路径,basePath是分区推断列之前的路径) scala scala的版本用的本地路径,测试发现
阅读全文
摘要:java scala
阅读全文
摘要:java scala
阅读全文
摘要:未使用rdd持久化 使用后 通过对比可以发现,未使用RDD持久化时,第一次计算比使用RDD持久化要快,但之后的计算显然要慢的多,差不多10倍的样子 代码
阅读全文
摘要:一.不使用spark 二.在spark集群上运行wordcount 新建一个maven工程 pom.xml 导出jar并上传,同时上传word.txt到hdfs上 编写scalawordcount.sh chmod 777 scalawordcount.sh ./scalawordcount.sh
阅读全文
摘要:由于之前已经搭建过hadoop相关环境,现在搭建spark的预备工作只有scala环境了 一,配置scala环境 1.解压tar包后,编辑/etc/profile 2.source /etc/profile 3.scala -version 4.分发到其他两台机器上 二.搭建spark集群 1.配置
阅读全文
1

浙公网安备 33010602011771号