摘要: Spark Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。 可以参考,Scala提供的DataFrame API。本文中的代码基于Spark-2.2的文档实现。 一、DataFrame对象的 阅读全文
posted @ 2018-04-23 22:58 大葱拌豆腐 阅读(740) 评论(0) 推荐(0)
摘要: 转载自:https://blog.csdn.net/u012297062/article/details/52227909 UDF: User Defined Function,用户自定义的函数,函数的输入是一条具体的数据记录,实现上讲就是普通的Scala函数;UDAF:User Defined A 阅读全文
posted @ 2018-04-23 22:14 大葱拌豆腐 阅读(517) 评论(0) 推荐(0)
摘要: 下划线这个符号几乎贯穿了任何一本Scala编程书籍,并且在不同的场景下具有不同的含义,绕晕了不少初学者。正因如此,下划线这个特殊符号无形中增加Scala的入门难度。本文希望帮助初学者踏平这个小山坡。 1. 用于替换Java的等价语法 由于大部分的Java关键字在Scala中拥有了新的含义,所以一些基 阅读全文
posted @ 2018-04-23 22:00 大葱拌豆腐 阅读(300) 评论(0) 推荐(0)
摘要: Spark Sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数hold不住,所以spark sql提供了可扩展的内置函数接口:哥们,你的业务太变态了,我满足不了你,自己按照我的规范去定义一个sql函数,该怎么折腾就怎么折腾! 这里还是先以Scala 阅读全文
posted @ 2018-04-23 19:38 大葱拌豆腐 阅读(506) 评论(0) 推荐(0)