随笔分类 -  spark

摘要:在前面: scala:2.12 hbase:2.0.2 开发工具:IDEA 准备工作: 1、将生产上的hbase中的conf/hbase-site.xml文件拷贝到idea中的src/resources目录下 2、将生产环境中hbase中的$HBASE_HOME/lib下的*.jar文件加载到IDE 阅读全文
posted @ 2018-11-06 15:35 郭小白 阅读(3710) 评论(0) 推荐(0)
摘要:通过scala实现二次排序 阅读全文
posted @ 2018-10-26 14:20 郭小白 阅读(541) 评论(0) 推荐(0)
摘要:一、数据准备: 代码示例: 二、数据准备 代码示例: 阅读全文
posted @ 2018-10-19 19:25 郭小白 阅读(5270) 评论(1) 推荐(1)
摘要:开发环境:spark:2.2.0 工具:IDEA OS:Windows 数据文件: 本次所有示例的函数有: Start 注:在使用函数的时候最好要导入org.apache.spark.sql.functions._这个包 import ssc.implicits._(这个包在实际写sql的时候将其导 阅读全文
posted @ 2018-09-19 22:57 郭小白 阅读(18744) 评论(1) 推荐(0)
摘要:说明:spark版本:2.2.0 hive版本:1.2.1 需求: 有本地csv格式的一个文件,格式为${当天日期}visit.txt,例如20180707visit.txt,现在需要将其通过spark-sql程序实现将该文件读取并以parquet的格式通过外部表的形式保存到hive中,最终要实现通 阅读全文
posted @ 2018-09-04 00:39 郭小白 阅读(8557) 评论(0) 推荐(0)