Fork me on GitHub

随笔分类 -  大数据技术栈

上一页 1 2 3 4 5 6 7 ··· 10 下一页
Hadoop、hive、spark、hive等
摘要:Kylin Cube的优化 在没有采取任何优化措施的情况下,Kylin会对每一种维度的组合进行预计算,每种维度的组合的预计算结果被称为Cuboid。假设有4个维度,我们最终会有24 =16个Cuboid需要计算。 但在现实情况中,用户的维度数量一般远远大于4个。假设用户有10 个维度,那么没有经过任 阅读全文
posted @ 2020-12-07 10:25 kris12 阅读(782) 评论(0) 推荐(0)
摘要:employee实事表才会参与真正运算,dept维表不参与 model模型分以下2种: ① 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星形模型 星状模型是直接关联; ② 当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连 阅读全文
posted @ 2020-12-04 15:52 kris12 阅读(375) 评论(0) 推荐(0)
摘要:Kylin可视化工具 JDBC 新建项目并导入依赖 View Code public class TestKylin { public static void main(String[] args) throws ClassNotFoundException, SQLException { //ky 阅读全文
posted @ 2020-12-03 20:22 kris12 阅读(277) 评论(0) 推荐(0)
摘要:Redis Redis 是一种键值(Key-Value)数据库。相对于关系型数据库(比如 MySQL),Redis 也被叫作非关系型数据库。 像 MySQL 这样的关系型数据库,表的结构比较复杂,会包含很多字段,可以通过 SQL 语句,来实现非常复杂的查询需求。而 Redis 中只包含“键”和“值” 阅读全文
posted @ 2020-11-25 10:11 kris12 阅读(768) 评论(0) 推荐(0)
摘要:升级之Spark升级 在CDH5.12.1集群中,默认安装的Spark是1.6版本,这里需要将其升级为Spark2.1版本。经查阅官方文档,发现Spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。 Cloudera发布 阅读全文
posted @ 2020-04-22 11:55 kris12 阅读(1481) 评论(0) 推荐(0)
摘要:1 Kerberos概述 1 什么是Kerberos Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认 阅读全文
posted @ 2020-04-22 11:54 kris12 阅读(4579) 评论(0) 推荐(0)
摘要:测试之集群性能测试 1 DFSIO测试 在Hadoop中包含很多的基准测试,用来验证集群的HDFS是不是设置合理,性能是不是达到预期,DFSIO是Hadoop的一个基准测试工具,被用来分析集群HDFS的I/O性能。 DFSIO后台执行MapReduce框架,其中Map任务以并行方式读写文件,Redu 阅读全文
posted @ 2020-04-22 00:16 kris12 阅读(1484) 评论(0) 推荐(0)
摘要:Sentry概述 cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。 kerberos主要负责平台用户的权限管理,sentry则负责数据的权限管理。 Sentry是什么 Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,它提供了细 阅读全文
posted @ 2020-04-20 23:54 kris12 阅读(3671) 评论(0) 推荐(0)
摘要:日志采集Flume配置 1)Flume配置分析 Flume直接读log日志的数据,log日志的格式是app-yyyy-mm-dd.log。 2)Flume的具体配置如下: 在CM管理页面上点击Flume, 在实例页面选择hadoop101上的Agent 3)在CM管理页面hadoop101上Flum 阅读全文
posted @ 2020-04-20 23:46 kris12 阅读(1561) 评论(0) 推荐(1)
摘要:一. 添加Hive服务 将 Hive 服务添加到 Cluster 1 配置hive元数据 测试通过后继续 自动启动Hive进程 修改Hive配置 /opt/cloudera/parcels/HADOOP_LZO-0.4.15-1.gplextras.p0.123/lib/hadoop/lib 更新H 阅读全文
posted @ 2020-04-20 23:43 kris12 阅读(1024) 评论(0) 推荐(0)
摘要:一. HDFS的参数配着 1. 修改HDFS的权限检查配置 关闭HDFS中的权限检查:dfs.permissions。 2. 配置Hadoop支持LZO 点击主机,在下拉菜单中点击Parcel 点击配置 找到远程Parcel存储库URL,点击最后一栏的加号,增加一栏,输入 http://archiv 阅读全文
posted @ 2020-04-20 23:19 kris12 阅读(1266) 评论(0) 推荐(0)
摘要:用户行为分析 统计分析 点击、浏览; 热门商品、近期热门商品、分类热门商品,流量统计; 偏好统计 收藏、喜欢、评分、打标签; 用户画像、推荐列表(结合特征工程和机器学习算法) 风险控制 下订单、支付、登录 刷单监控,订单实效监控,恶意登录(短时间内频繁登录失败)监控 1. 实时流量统计 1.1. 实 阅读全文
posted @ 2020-04-10 22:30 kris12 阅读(2239) 评论(0) 推荐(1)
摘要:1. 状态一致性 当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是"正确性级别"的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多 正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏 阅读全文
posted @ 2020-03-25 23:55 kris12 阅读(2166) 评论(0) 推荐(0)
摘要:一致性检查点(checkpoint) 从检查点恢复状态 Flink检查点算法 保存点(save point) 1. 一致性检查点(checkpoint) Flink--有状态的流式处理 如上图sum_even (2+4),sum_odd(1 + 3 + 5),5这个数据之前的都处理完了,就出保存一个 阅读全文
posted @ 2020-03-25 23:54 kris12 阅读(826) 评论(0) 推荐(0)
摘要:窗口的第一个时间窗口是如何定义的呢?查看源码: 滑动窗口: 这里的offset是用来指定时间戳的时区的,timestamp(1970年1月1号的毫秒数,默认是格林威治0时区的时间),北京时间是东八区,我们的时间比他们早8h,如果要跟他们标准时间统一的话offset应该是 -8;但在国内无所谓的,默认 阅读全文
posted @ 2020-03-25 23:53 kris12 阅读(1445) 评论(0) 推荐(0)
摘要:ProcessFunction API 之前的转换算子 是无法访问事件的时间戳信息和 水位线 信息的。而这在一些应用场景下极为重要。例如 MapFunction 这样的 map 转换算子就无法访问时间戳或者当前事件的事件时间。基于此, DataStream API 提供了一系列的 Low Level 阅读全文
posted @ 2020-03-24 15:03 kris12 阅读(1561) 评论(0) 推荐(1)
摘要:状态后端(State Backends) 每传入一条数据,有状态的算子任务都会读取和更新状态; 由于有效的状态访问对于处理数据的低延迟至关重要,因此每个并行任务都会在本地内存维护其状态,以确保快速的状态访问。 状态的存储、访问以及维护,由一个可插入的组件决定,这个组件就叫做状态后端(State Ba 阅读全文
posted @ 2020-03-23 23:39 kris12 阅读(4407) 评论(0) 推荐(0)
摘要:Yarn用户资源隔离配置,主要使用 Yarn动态资源池(dynamic resource pool) _ 对YARN应用程序进行资源和策略分配的池。(Impala资源也可以动态管理)_动态资源池允许安排和分配用户访问特定池,用来执行YARN应用程序。如果一个池的资源未被使用,它可以被占用(preem 阅读全文
posted @ 2020-03-21 09:27 kris12 阅读(5402) 评论(0) 推荐(1)
摘要:Atlas概述 Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。 Atlas架构原理 Atlas安装及使用 1)Atlas官网地址:https://atlas.apache. 阅读全文
posted @ 2020-02-07 21:19 kris12 阅读(7860) 评论(1) 推荐(1)

上一页 1 2 3 4 5 6 7 ··· 10 下一页
levels of contents