碧水斜茶 - 博客园

2021年9月

摘要：为了计算方便在dws层生产一张每日销售数据 -- 创建一张日期维度表，存放日期相关维度 -- 在订单宽表上增加日期对应维度信息如。订单日，订单周，订单周开始时间，订单月，订单季度，订单年 DROP TABLE IF EXISTS dws.dws_trade_orders_w; create tabl 阅读全文

posted @ 2021-09-08 17:30 碧水斜茶阅读(96) 评论(0) 推荐(0)

flink面试题

摘要： 16. Flink中有哪些窗口？ Flink 支持两种划分窗口的方式，按照time和count。如果根据时间划分窗口，那么它就是一个time-window 如果根据数据划分窗口，那么它就是一个count-window。flink支持窗口的两个重要属性（size和interval）如果size=int 阅读全文

posted @ 2021-09-08 17:29 碧水斜茶阅读(670) 评论(0) 推荐(0)

Flink基础

摘要： 11 Flink的并行度了解吗？Flink的并行度设置是怎样的？ Flink中的任务被分为多个并行任务来执行，其中每个并行的实例处理一部分数据。这些并行实例的数量被称为并行度。我们在实际生产环境中可以从四个不同层面设置并行度：操作算子层面(Operator Level) 执行环境层面(Execut 阅读全文

posted @ 2021-09-06 16:14 碧水斜茶阅读(107) 评论(0) 推荐(0)

flink常见面试题

摘要： 1 简单介绍一下 Flink Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务： DataSet API，对静态数据进行批处理操作，将静态数据抽阅读全文

posted @ 2021-09-03 17:56 碧水斜茶阅读(1207) 评论(0) 推荐(1)

Hadoop MapReduce 作业的生命周期

摘要：假设用户编写了一个MapReduce程序，并将其打包成xxx.jar文件，并提交作业，该作业的运行过程如图所示：这个过程分为以下5个步骤：作业提交与初始化。用户提交作业后，首先由JobClient实例将作业相关信息，（比如讲程序jar包、作业配置文件、分片元信息文件等）上传到分不是文件系统（一阅读全文

posted @ 2021-09-02 19:06 碧水斜茶阅读(107) 评论(0) 推荐(0)

大数据面试题解析之数据处理篇-Flink

摘要： 1.Flink基础 1. 简单介绍一下 Flink Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务： DataSet API，对静态数据进行批阅读全文

posted @ 2021-09-01 17:04 碧水斜茶阅读(405) 评论(0) 推荐(0)

2021年8月

集群时间同步

摘要：时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。配置时间同步具体实操： 1）时间服务器配置（必须root用户）（0）查看所有节点ntpd服务状态和开机自启动状态 [atguigu@hadoop102 ~]$ sudo syste 阅读全文

posted @ 2021-08-31 18:09 碧水斜茶阅读(77) 评论(0) 推荐(0)

Hive中如何处理JSON格式数据

摘要： Hive 处理json数据总体来说有三个办法：使用内建的函数get_json_object、json_tuple 使用自定义的UDF(一进一出)，自定义UDTF(一进多出) 第三方的SerDe--》JSONSerder 1、使用内建函数处理 get_json_object(string json_ 阅读全文

posted @ 2021-08-30 16:19 碧水斜茶阅读(3085) 评论(1) 推荐(0)

kafka消息一致性

摘要：消息丢失的案例： Leader接收消息后，更新Leader的LEO，但是Remote-LEO和HW并没有更新。如果生产者设置acks=1，则表示此消息已经发送成功。如果acks=-1，默认 min.insync.replics=1，也表示消息已经发送成功： Follower拉取消息，放到本地，此时阅读全文

posted @ 2021-08-27 18:18 碧水斜茶阅读(426) 评论(0) 推荐(0)

hive自定义函数

摘要：为什么要自定义函数 hive的内置函数无法满足实际开发环境的所有情况，这个时候需要我们根据业务自定义函数来解决问题。hive提供了很多模块的自定义功能，如：serde、自定义函数、输入输出格式化等常见的自定义函数 UDF:User Define Function.一对一的输入输出，非常使用。UDA 阅读全文

posted @ 2021-08-26 18:17 碧水斜茶阅读(265) 评论(0) 推荐(0)

公告