上一页 1 ··· 4 5 6 7 8 9 10 11 12 下一页
摘要: 最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:索引 索引 适用于大多数索引情况: create index table01_index on table table01 (column2) as 'org.apache.hadoop.hive.ql. 阅读全文
posted @ 2022-03-13 22:51 Kotlin 阅读(246) 评论(0) 推荐(0)
摘要: 最近看了一遍hive的文档,本文是为了记录文档中将来会可用东西,并非最全的《文档》,望谅解 一:Hive 常用命令、命令行参数、变量 我们在使用hive过程中一般是 hive命令直接起来一个客户端,然后输入命令进行操作。 但是hive本身是有很多可选命令以及参数可以配置的,如下: 命令 含义 exi 阅读全文
posted @ 2022-03-13 12:45 Kotlin 阅读(560) 评论(0) 推荐(0)
摘要: hive简单的数据结构像基本类型一样,处理起来没有难度。但是hive有复杂的数据结构如struct、map、array等,处理起来较为复杂了,下面简单介绍一下用spark处理hive复杂数据结构。 一:struct结构 熟悉C语言的同学可能会对这个比较熟悉。C语言中稍微复杂的类型都是由struct构 阅读全文
posted @ 2020-06-28 00:20 Kotlin 阅读(5684) 评论(0) 推荐(0)
摘要: 在生产环境中遇到了这种情况:spark程序需要处理输入是多个目录,输出也是多个目录。但是处理的逻辑都是相同的。 使用方法经历多次修改,最终成功完成任务。其中涉及到spark多job提交和spark多个目录同时处理,在此记录一下。程序中所有异常处理,建议都在函数里面处理好,不要直接写一些处理代码。这样 阅读全文
posted @ 2020-06-26 22:15 Kotlin 阅读(715) 评论(0) 推荐(0)
摘要: 一:自定义数据类 1.为什么需要自定义数据类 上一篇文章里面我们自己写了一个mapreduce 里面的Top N的https://www.cnblogs.com/wuxiaolong4/p/12733518.html,我们可以从代码里面看出来,里面用|作分隔符,这种方法不好,会由于你自己的失误导致读 阅读全文
posted @ 2020-04-19 23:31 Kotlin 阅读(280) 评论(0) 推荐(0)
摘要: 一:流程分析 1.Top N简介 关系数据库中经常有Top n数据查询的大部分是以下四种需求 1.直接min或者max就可以取得最大或者最小的数据 (top 1) 2.升级一点就再加上一个groupby取一个分组内的最大值,最小值(分组内的top1) 3.top 10需求,使用order函数取一个前 阅读全文
posted @ 2020-04-19 21:05 Kotlin 阅读(627) 评论(0) 推荐(0)
摘要: 一:流程分析 1.好友推荐简介 好友推荐功能大家都比较熟悉,在这里就不作介绍了。重点介绍以下算法:通过计算共同好友来确定两人的好友关系 如图所示:用户A里面有4个好友,用户B里面也有4个好友,将两个join起来形成共同好友的结果,结果里面有重复的就说明两人认识的可能行极大。 此方法需要考虑的情况: 阅读全文
posted @ 2020-04-19 14:37 Kotlin 阅读(527) 评论(0) 推荐(0)
摘要: 最近把自己学习到的知识捋一捋,发现现在除了spark和hive别的没有能拿的出手的,虽然java也会但是只是限制于能写东西想把知识体系好好补充一下,就开始hadoop系列的文章,好好的把hadoop从头到尾学习一下。 一:文件IO流程 1.文件读流程 1.client打开DistributesFil 阅读全文
posted @ 2020-04-12 17:19 Kotlin 阅读(1204) 评论(0) 推荐(0)
摘要: 公司数仓迁移完成了,现在所有的数据一天6T的用户行为数据全部由一个spark脚本,关联用户属性数据生成最终想要的数据。里面让我感触最深的是资源的使用spark优化,再此记录一篇关于sparksql优化的文章,专门总结以下现在使用的资源优化及以前使用的资源优化。 一:资源优化 1.对于数据处理的分组 阅读全文
posted @ 2020-03-29 22:10 Kotlin 阅读(1555) 评论(0) 推荐(0)
摘要: 公司所有产品均是json数据上报给数仓使用,由于格式的不统一造成数据处理很麻烦,经过讨论将公共字段抽取出来,将业务线自己的字段放在 extends字段里面各个业务线的人自己写sql解析extends字段处理。里面涉及到一个json转map的知识点再此记录一下。 一:JSON转Map 1.为什需要将J 阅读全文
posted @ 2020-03-29 00:40 Kotlin 阅读(735) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 11 12 下一页
Live2D