会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
kris12
Self-discipline gives me freedom.
博客园
首页
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
31
下一页
2020年4月22日
CDH |集群资源管理| 性能测试| 资源管理| 邮件报警| 数据备份| 节点的添加
摘要: 测试之集群性能测试 1 DFSIO测试 在Hadoop中包含很多的基准测试,用来验证集群的HDFS是不是设置合理,性能是不是达到预期,DFSIO是Hadoop的一个基准测试工具,被用来分析集群HDFS的I/O性能。 DFSIO后台执行MapReduce框架,其中Map任务以并行方式读写文件,Redu
阅读全文
posted @ 2020-04-22 00:16 kris12
阅读(1484)
评论(0)
推荐(0)
2020年4月20日
CDH| 安全之Sentry权限管理
摘要: Sentry概述 cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。 kerberos主要负责平台用户的权限管理,sentry则负责数据的权限管理。 Sentry是什么 Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,它提供了细
阅读全文
posted @ 2020-04-20 23:54 kris12
阅读(3671)
评论(0)
推荐(0)
CDH| 组件的使用-Flume| Kafka| Oozie基于Hue的任务调度
摘要: 日志采集Flume配置 1)Flume配置分析 Flume直接读log日志的数据,log日志的格式是app-yyyy-mm-dd.log。 2)Flume的具体配置如下: 在CM管理页面上点击Flume, 在实例页面选择hadoop101上的Agent 3)在CM管理页面hadoop101上Flum
阅读全文
posted @ 2020-04-20 23:46 kris12
阅读(1560)
评论(0)
推荐(1)
CDH| Hive| Hue| Sqoop| Impala等组件安装部署
摘要: 一. 添加Hive服务 将 Hive 服务添加到 Cluster 1 配置hive元数据 测试通过后继续 自动启动Hive进程 修改Hive配置 /opt/cloudera/parcels/HADOOP_LZO-0.4.15-1.gplextras.p0.123/lib/hadoop/lib 更新H
阅读全文
posted @ 2020-04-20 23:43 kris12
阅读(1024)
评论(0)
推荐(0)
CDH| 组件的安装-HDFS的配置 | Flume| Kafka|
摘要: 一. HDFS的参数配着 1. 修改HDFS的权限检查配置 关闭HDFS中的权限检查:dfs.permissions。 2. 配置Hadoop支持LZO 点击主机,在下拉菜单中点击Parcel 点击配置 找到远程Parcel存储库URL,点击最后一栏的加号,增加一栏,输入 http://archiv
阅读全文
posted @ 2020-04-20 23:19 kris12
阅读(1264)
评论(0)
推荐(0)
2020年4月10日
Flink| 实时需要分析
摘要: 用户行为分析 统计分析 点击、浏览; 热门商品、近期热门商品、分类热门商品,流量统计; 偏好统计 收藏、喜欢、评分、打标签; 用户画像、推荐列表(结合特征工程和机器学习算法) 风险控制 下订单、支付、登录 刷单监控,订单实效监控,恶意登录(短时间内频繁登录失败)监控 1. 实时流量统计 1.1. 实
阅读全文
posted @ 2020-04-10 22:30 kris12
阅读(2238)
评论(0)
推荐(1)
2020年3月25日
Flink| 状态一致性| 检查点checkpoint
摘要: 1. 状态一致性 当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是"正确性级别"的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多 正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏
阅读全文
posted @ 2020-03-25 23:55 kris12
阅读(2164)
评论(0)
推荐(0)
Flink| 容错机制| 检查点
摘要: 一致性检查点(checkpoint) 从检查点恢复状态 Flink检查点算法 保存点(save point) 1. 一致性检查点(checkpoint) Flink--有状态的流式处理 如上图sum_even (2+4),sum_odd(1 + 3 + 5),5这个数据之前的都处理完了,就出保存一个
阅读全文
posted @ 2020-03-25 23:54 kris12
阅读(824)
评论(0)
推荐(0)
Flink| 第一个窗口触发时间
摘要: 窗口的第一个时间窗口是如何定义的呢?查看源码: 滑动窗口: 这里的offset是用来指定时间戳的时区的,timestamp(1970年1月1号的毫秒数,默认是格林威治0时区的时间),北京时间是东八区,我们的时间比他们早8h,如果要跟他们标准时间统一的话offset应该是 -8;但在国内无所谓的,默认
阅读全文
posted @ 2020-03-25 23:53 kris12
阅读(1445)
评论(0)
推荐(0)
2020年3月24日
Flink| ProcessFunction API(底层API)
摘要: ProcessFunction API 之前的转换算子 是无法访问事件的时间戳信息和 水位线 信息的。而这在一些应用场景下极为重要。例如 MapFunction 这样的 map 转换算子就无法访问时间戳或者当前事件的事件时间。基于此, DataStream API 提供了一系列的 Low Level
阅读全文
posted @ 2020-03-24 15:03 kris12
阅读(1561)
评论(0)
推荐(1)
上一页
1
2
3
4
5
6
7
8
9
···
31
下一页
公告
levels of contents