摘要: 逐个运行例子,查看结果 举例说明HADOOP_HOME环境变量 org.apache.spark.examples.sql.hive.JavaSparkHiveExample 修改Run Configuration,添加Env HADOOP_HOME=${HADOOP_HOME} 运行Java 类。 阅读全文
posted @ 2017-11-07 17:46 阿梁的新博客 阅读(208) 评论(0) 推荐(0) 编辑
摘要: https://files.cnblogs.com/files/wifi0/spark2.1.1example_api_sql_streaming_eclipseProject.ziphttps://files.cnblogs.com/files/wifi0/runconfig.zip 搭建代码阅读 阅读全文
posted @ 2017-11-07 17:45 阿梁的新博客 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 创建表,并插入数据。 查看目录结构 修改数据'1',和数据'2'的age字段,第三个字段。 看到了把,出现了9个delta版本文件。因为有了5次插入和4次update。现在执行compact,尽快,在系统compact之前完成。 查看表目录文件情况 查看表目录文件情况 阅读全文
posted @ 2017-09-01 15:40 阿梁的新博客 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 这个实验,演示了分区表和非分区表的关系。值分区表的orc文件不保存分区列的值。 下面试着演示范围分区: 用dfs -ls 找出有数据的目录,然后将数据load到对应非分区表user9_0中。 结果如下,说明范围分区表中的orc文件有和对应非分区表相同数量的列。 阅读全文
posted @ 2017-08-23 23:23 阿梁的新博客 阅读(714) 评论(0) 推荐(0) 编辑
摘要: 随后用dfs命令查看user1的表目录。可见有000000_0文件。删除后表中无数据。重新填充数据准备后续实验。 创建了user1_0和user1有相同的列定义,都存成orc格式。 将user1表目录中的文件copy到user1_0表。则user1_0表也有了数据。由此了解orc表和表目录下文件的关 阅读全文
posted @ 2017-08-23 22:52 阿梁的新博客 阅读(895) 评论(0) 推荐(0) 编辑
摘要: 此时可见user2目录下有partition=girl和partition=boy两个子目录。 此时可见sex=girl目录下有两个文件000000_0,000001_0 因为分为两个桶。根据hash规则,age=17,17%2=1,则数据在000001_0的文件中。删掉此文件。 可见user2变空 阅读全文
posted @ 2017-08-23 21:47 阿梁的新博客 阅读(500) 评论(0) 推荐(0) 编辑
摘要: 在eclipse中运行spark examples(二) package org.apache.spark.examples.streaming; JavaCustomReceiver 编写辅助测试代码如下。 package tw; import java.io.IOException; import java.io.PrintWriter; import java.net.In... 阅读全文
posted @ 2017-06-06 10:37 阿梁的新博客 阅读(2255) 评论(0) 推荐(0) 编辑
摘要: setup spark-cluster并运行sparksql example 准备spark-standalone集群环境 上传spark-2.1.1-bin-hadoop2.7.tgz到/root下 tar zxvf spark-2.1.1-bin-hadoop2.7.tgz 此为演示,生产环境略有不同 cd spark-2.1.1-bin-hadoop2.7/conf cp sp... 阅读全文
posted @ 2017-06-06 10:24 阿梁的新博客 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 运行spark exmaple 代码 以管理员权限运行eclipse 以JavaSparkHiveExample为例 package :org.apache.spark.examples.sql 搭建代码环境 Figure 1新建maven项目,名称为spark2.1.1example 修改jdk版 阅读全文
posted @ 2017-06-06 10:23 阿梁的新博客 阅读(389) 评论(0) 推荐(0) 编辑
摘要: hdfs副本和基本读写。 core-site.xmlhdfs-site.xml 从/etc/hdfs1/conf下拷贝到工作空间 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import or... 阅读全文
posted @ 2017-04-26 11:54 阿梁的新博客 阅读(1684) 评论(0) 推荐(0) 编辑