摘要: Scala 是一门类 Java 的编程语言,它结合了面向对象编程和函数式编程。Scala 是纯面向对象的,每个值都是一个对象,对象的类型和行为由类定义,不同的类可以通过混入(mixin)的方式组合在一起。Scala的设计目的是要和两种主流面向对象编程语言Java 和 C#实现无缝互操作,这两种主流语 阅读全文
posted @ 2020-10-19 14:22 楔子 阅读(872) 评论(0) 推荐(0)
摘要: 1)确保本地已经安装好了Java 2)下载scala 下载地址 https://www.scala-lang.org/download/ 下载完成后,双击msi 文件,一步步安装即可,安装过程中可以自定义安装目录。 我这边安装在D盘,如图: 3)设置环境变量,将scala的bin目录添加到PATH 阅读全文
posted @ 2020-10-19 14:02 楔子 阅读(296) 评论(0) 推荐(0)
摘要: ps -ef |grep bst_agg_tkt_back_model_d | grep -v 'grep' | awk '{print $2}' | xargs kill -9 阅读全文
posted @ 2020-10-19 11:12 楔子 阅读(88) 评论(0) 推荐(0)
摘要: 一、什么是Flume? Flume是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据的简单处理,并写到各种数据接收方的能力。 二、安装 1)从http://flume.apache.org/download.html下载flume 阅读全文
posted @ 2020-10-19 10:16 楔子 阅读(153) 评论(0) 推荐(1)
摘要: 直观的说,bloom算法类似一个hash set,用来判断某个元素(key)是否在某个集合中。和一般的hash set不同的是,这个算法无需存储key的值,对于每个key,只需要k个比特位,每个存储一个标志,用来判断key是否在集合中。 算法:1. 首先需要k个hash函数,每个函数可以把key散列 阅读全文
posted @ 2020-10-16 15:10 楔子 阅读(89) 评论(0) 推荐(0)
摘要: Hadoop2.x与Hadoop3.x主要存在以下差异: 1)LicenseHadoop 2.x - Apache 2.0,开源Hadoop 3.x - Apache 2.0,开源2)支持的最低Java版本Hadoop 2.x - java的最低支持版本是java 7Hadoop 3.x - jav 阅读全文
posted @ 2020-10-11 21:44 楔子 阅读(716) 评论(0) 推荐(0)
摘要: 在Hadoop1.x时代: MapReduce:计算+资源调度 HDFS: 数据存储 Hadoop2.x时代: MapReduce:计算 Yarn: 资源调度 HDFS:数据存储 HDFS2.0新特性:主要是HDFS HA和HDFS联邦两个新特性 阅读全文
posted @ 2020-10-11 21:39 楔子 阅读(281) 评论(0) 推荐(0)
摘要: 1.选择主机->所有主机 2.选择一台主机 3.选择组件可查看到对应组件的版本信息 阅读全文
posted @ 2020-10-11 21:25 楔子 阅读(1618) 评论(0) 推荐(0)
摘要: 1)LAG与LEAD LAG(col,n,default) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) 例子:获取用户这次下单与下次下单的时间,统计时间差 select o 阅读全文
posted @ 2020-10-10 12:06 楔子 阅读(122) 评论(0) 推荐(0)
摘要: order by order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样,它只在一个reduce中进行所以数据量特别大的时候效率非常低。 而且当设置 :set hive.mapred.mode=strict的时候不指定limit,执行select会报 阅读全文
posted @ 2020-10-10 11:44 楔子 阅读(187) 评论(0) 推荐(0)