spark - 随笔分类(第2页) - 郭小白

scala操作HBase2.0

摘要：在前面： scala:2.12 hbase:2.0.2 开发工具：IDEA 准备工作： 1、将生产上的hbase中的conf/hbase-site.xml文件拷贝到idea中的src/resources目录下 2、将生产环境中hbase中的$HBASE_HOME/lib下的*.jar文件加载到IDE 阅读全文

posted @ 2018-11-06 15:35 郭小白阅读(3710) 评论(0) 推荐(0)

spark的二次排序

摘要：通过scala实现二次排序阅读全文

posted @ 2018-10-26 14:20 郭小白阅读(541) 评论(0) 推荐(0)

SparkSql处理嵌套json数据

摘要：一、数据准备：代码示例：二、数据准备代码示例：阅读全文

posted @ 2018-10-19 19:25 郭小白阅读(5270) 评论(1) 推荐(1)

Sparksql的内置函数的使用以及案例

摘要：开发环境：spark：2.2.0 工具：IDEA OS:Windows 数据文件：本次所有示例的函数有： Start 注：在使用函数的时候最好要导入org.apache.spark.sql.functions._这个包 import ssc.implicits._（这个包在实际写sql的时候将其导阅读全文

posted @ 2018-09-19 22:57 郭小白阅读(18744) 评论(1) 推荐(0)

关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中

摘要：说明：spark版本：2.2.0 hive版本：1.2.1 需求：有本地csv格式的一个文件，格式为${当天日期}visit.txt,例如20180707visit.txt，现在需要将其通过spark-sql程序实现将该文件读取并以parquet的格式通过外部表的形式保存到hive中，最终要实现通阅读全文

posted @ 2018-09-04 00:39 郭小白阅读(8557) 评论(0) 推荐(0)

郭小白

随笔分类 - spark

公告