会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Xiaohu_BigData
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
···
23
下一页
2020年6月3日
Spark1.6和2.0版本区别(一) 累加器
摘要: 1.6版本 2.0版本
阅读全文
posted @ 2020-06-03 16:02 Xiaohu_BigData
阅读(478)
评论(0)
推荐(0)
2020年5月31日
MongoDB学习(一) 安装与基本使用
摘要: 链接:https://pan.baidu.com/s/1ogTDFJg3ZZc0CyzaTeswWg 提取码:2k0p 安装 // 将压缩包解压到指定目录 [bigdata@linux backup]$ tar -xf mongodb-linux-x86_64-rhel62-3.4.3.tgz -C
阅读全文
posted @ 2020-05-31 16:38 Xiaohu_BigData
阅读(297)
评论(0)
推荐(0)
2020年5月30日
Flink学习(十八) 状态管理与状态编程
摘要: Flink中的状态 由一个任务维护,并且用来计算某个结果的所有数据,都属于这个任务的状态;可以认为状态就是一个本地变量,可以被任务的业务逻辑访问;Flink会进行状态管理,包括状态一致性,故障处理以及高效存储和访问,以使开发人员可以专注于应用程序的逻辑。 在Flink中,状态始终与特定算子相关联,为
阅读全文
posted @ 2020-05-30 21:36 Xiaohu_BigData
阅读(1575)
评论(0)
推荐(0)
2020年5月27日
大量小文件不适合存储于HDFS的原因
摘要: 1、小文件过多,会过多占用namenode的内存,并浪费block。 - 文件的元数据(包括文件被分成了哪些blocks,每个block存储在哪些服务器的哪个block块上),都是存储在namenode上的。 HDFS的每个文件、目录、数据块占用150B,因此300M内存情况下,只能存储不超过300
阅读全文
posted @ 2020-05-27 18:18 Xiaohu_BigData
阅读(1517)
评论(0)
推荐(0)
2020年5月24日
Flink学习(十七) Emitting to Side Outputs(侧输出)
摘要: 我们在生产实践中经常会遇到这样的场景,需把输入源按照需要进行拆分,比如我期望把订单流按照金额大小进行拆分,或者把用户访问日志按照访问者的地理位置进行拆分等。面对这样的需求该如何操作呢? 大部分的DataStream API的算子的输出时单一输出,也就是某种数据类型的流。除了split算子(使用spl
阅读全文
posted @ 2020-05-24 20:42 Xiaohu_BigData
阅读(846)
评论(0)
推荐(0)
Flink学习(十六) ProcessFunctionAPI(底层API)
摘要: 我们之前学习的转换算子是无法访问时间的时间戳信息和水位线信息的。而这些在一些应用场景下,极为重要,例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。 基于此,DataStreamAPI提供了一系列的Low-Level的转换算子,可以访问时间戳、watermark以
阅读全文
posted @ 2020-05-24 20:15 Xiaohu_BigData
阅读(595)
评论(0)
推荐(0)
2020年5月23日
Flink学习(十五) 滑动事件时间窗口加上水位线开始窗口时间如何确定?(底层源码)
摘要: 先看上一节的代码程序 package com.wyh.windowsApi import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.functions.timesta
阅读全文
posted @ 2020-05-23 17:02 Xiaohu_BigData
阅读(2343)
评论(0)
推荐(2)
Flink学习(十四) Flink 窗口、时间和水位线
摘要: Flink 框架中支持事件时间、摄入时间和处理时间三种。而当我们在流式计算环境中数据从 Source 产生,再到转换和输出,这个过程由于网络和反压的原因会导致消息乱序。因此,需要有一个机制来解决这个问题,这个特别的机制就是“水位线”。 Flink 的窗口和时间根据窗口数据划分的不同,目前 Flink
阅读全文
posted @ 2020-05-23 16:01 Xiaohu_BigData
阅读(7737)
评论(0)
推荐(0)
2020年5月20日
Flink学习(十三) Flink 常见核心概念分析
摘要: 分布式缓存熟悉 Hadoop 的你应该知道,分布式缓存最初的思想诞生于 Hadoop 框架,Hadoop 会将一些数据或者文件缓存在 HDFS 上,在分布式环境中让所有的计算节点调用同一个配置文件。在 Flink 中,Flink 框架开发者们同样将这个特性进行了实现。 Flink 提供的分布式缓存类
阅读全文
posted @ 2020-05-20 20:02 Xiaohu_BigData
阅读(1263)
评论(1)
推荐(1)
Flink学习(十二) Sink到JDBC(可扩展到任何关系型数据库)
摘要: 导入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.46</version> </dependency> 编译代码 package com.wyh.
阅读全文
posted @ 2020-05-20 17:24 Xiaohu_BigData
阅读(2764)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
23
下一页
公告