楔子 - 博客园

2020年10月19日

摘要： Scala 是一门类 Java 的编程语言，它结合了面向对象编程和函数式编程。Scala 是纯面向对象的，每个值都是一个对象，对象的类型和行为由类定义，不同的类可以通过混入(mixin)的方式组合在一起。Scala的设计目的是要和两种主流面向对象编程语言Java 和 C#实现无缝互操作，这两种主流语阅读全文

posted @ 2020-10-19 14:22 楔子阅读(872) 评论(0) 推荐(0)

Scala本地安装使用

摘要： 1）确保本地已经安装好了Java 2）下载scala 下载地址 https://www.scala-lang.org/download/ 下载完成后，双击msi 文件，一步步安装即可，安装过程中可以自定义安装目录。我这边安装在D盘，如图： 3）设置环境变量，将scala的bin目录添加到PATH 阅读全文

posted @ 2020-10-19 14:02 楔子阅读(296) 评论(0) 推荐(0)

Linux杀死进程

摘要： ps -ef |grep bst_agg_tkt_back_model_d | grep -v 'grep' | awk '{print $2}' | xargs kill -9 阅读全文

posted @ 2020-10-19 11:12 楔子阅读(88) 评论(0) 推荐(0)

Flume

摘要：一、什么是Flume? Flume是一个分布式、可靠、高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据的简单处理，并写到各种数据接收方的能力。二、安装 1)从http://flume.apache.org/download.html下载flume 阅读全文

posted @ 2020-10-19 10:16 楔子阅读(153) 评论(0) 推荐(1)

2020年10月16日

布隆过滤器了解

摘要：直观的说，bloom算法类似一个hash set，用来判断某个元素（key）是否在某个集合中。和一般的hash set不同的是，这个算法无需存储key的值，对于每个key，只需要k个比特位，每个存储一个标志，用来判断key是否在集合中。算法：1. 首先需要k个hash函数，每个函数可以把key散列阅读全文

posted @ 2020-10-16 15:10 楔子阅读(89) 评论(0) 推荐(0)

2020年10月11日

Hadoop2.x与Hadoop3.x比较

摘要： Hadoop2.x与Hadoop3.x主要存在以下差异： 1）LicenseHadoop 2.x - Apache 2.0，开源Hadoop 3.x - Apache 2.0，开源2）支持的最低Java版本Hadoop 2.x - java的最低支持版本是java 7Hadoop 3.x - jav 阅读全文

posted @ 2020-10-11 21:44 楔子阅读(716) 评论(0) 推荐(0)

Hadoop1.x与Hadoop2.x区别

摘要：在Hadoop1.x时代： MapReduce：计算+资源调度 HDFS: 数据存储 Hadoop2.x时代： MapReduce：计算 Yarn: 资源调度 HDFS：数据存储 HDFS2.0新特性：主要是HDFS HA和HDFS联邦两个新特性阅读全文

posted @ 2020-10-11 21:39 楔子阅读(281) 评论(0) 推荐(0)

CDH查看各组件的版本号

摘要： 1.选择主机->所有主机 2.选择一台主机 3.选择组件可查看到对应组件的版本信息阅读全文

posted @ 2020-10-11 21:25 楔子阅读(1618) 评论(0) 推荐(0)

2020年10月10日

Hive 分析函数

摘要： 1）LAG与LEAD LAG(col,n,default) 用于统计窗口内往上第n行值第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）例子：获取用户这次下单与下次下单的时间，统计时间差 select o 阅读全文

posted @ 2020-10-10 12:06 楔子阅读(122) 评论(0) 推荐(0)

Hive order by、distribute by、sort by和cluster by

摘要： order by order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样，它只在一个reduce中进行所以数据量特别大的时候效率非常低。而且当设置：set hive.mapred.mode=strict的时候不指定limit，执行select会报阅读全文

posted @ 2020-10-10 11:44 楔子阅读(187) 评论(0) 推荐(0)