随笔分类 - 大数据实战
摘要:1 Atlas概述 Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。 Atlas的具体功能如下: 元数据分类 支持对元数据进行分类管理,例如个人信息,敏感信息等 元数据检索
阅读全文
posted @ 2021-09-25 10:56
秋华
摘要:0 简介 副本虽然能够提高数据的可用性,降低丢失风险,但是每台服务器实际上必须容纳全量数据,对数据的横向扩容没有解决。 要解决数据水平切分的问题,需要引入分片的概念。通过分片把一份完整的数据进行切分,不同的分片分布到不同的节点上,再通过 Distributed 表引擎把数据拼接起来一同使用。 Dis
阅读全文
posted @ 2021-03-27 22:32
秋华
摘要:0 简介 副本的目的主要是保障数据的高可用性,即使一台 ClickHouse 节点宕机,那么也可以从其他服务器获得相同的数据。 1 副本写入流程 2 配置步骤 ➢ 启动 zookeeper 集群 ➢ 在hadoop202的/etc/clickhouse-server/config.d目录下创建一个名
阅读全文
posted @ 2021-03-27 21:45
秋华
摘要:1 准备工作 1.1 确定防火墙处于关闭状态 1.2 CentOS 取消打开文件数限制 ➢ 在 hadoop202 的 /etc/security/limits.conf 文件的末尾加入以下内容 [atguigu@hadoop202 ~]$ sudo vim /etc/security/limits
阅读全文
posted @ 2021-03-27 20:11
秋华
摘要:Griffin 入门 1 Griffin 概述 Apache Griffin 是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度度量数据资产,从而提升数据的准确度和可信度。例如: 离线任务执行完毕后检查源端和目标端的数据数量是否一致,源表的数据空值等。 2
阅读全文
posted @ 2020-09-28 22:18
秋华
摘要:1 mysql的准备 1.1 导入模拟业务数据库 1.2 赋权限 在mysql中执行 GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%' IDENTIFIED BY 'canal' ; 1.3 修改/et
阅读全文
posted @ 2020-09-12 21:29
秋华
摘要:1 什么是 canal 阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。 canal是用java开发的基于数据库增
阅读全文
posted @ 2020-09-12 21:16
秋华
摘要:1 建表 连接hadoop103mysql数据库,利用navicat导入mysql脚本,建立表 1)gmall0105.sql 2)base_province表数据.sql 2 生成数据并导入到数据库中 三个文件放在同一个文件夹下 1)修改保存application.properties loggi
阅读全文
posted @ 2020-09-12 21:04
秋华
摘要:1 拷贝日志生成jar包到虚拟机的某个目录 2 修改application.properties # 外部配置打开 # logging.config=./logback.xml #业务日期 mock.date=2020-05-16 #模拟数据发送模式 mock.type=http #http模式下,
阅读全文
posted @ 2020-09-12 15:56
秋华
摘要:3.1 Nginx 入门 3.1.1简介 Nginx ("engine x") 是一个高性能的HTTP和反向代理服务器,特点是占有内存少,并发能力强,事实上nginx的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用nginx网站用户有:百度、京东、新浪、网易、腾讯、淘宝等。 3.1.2 N
阅读全文
posted @ 2020-09-11 22:34
秋华
摘要:2 日志采集模块打包部署 (部署到服务器) 2.1 修改logback中的配置文件 <?xml version="1.0" encoding="UTF-8"?> <configuration> <property name="LOG_HOME" value="/opt/applog/gmall010
阅读全文
posted @ 2020-09-11 22:29
秋华
摘要:1.1 springboot简介 Spring Boot 是由 Pivotal 团队提供的全新框架,其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程。 该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。 1.1.1有了springboot 我们就可以… 1 不
阅读全文
posted @ 2020-09-11 22:11
秋华
摘要:1 父工程 gmall2020-parent 1.1 建立工程 (课堂中命名可能与课件中不一致) 2 pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" x
阅读全文
posted @ 2020-09-11 21:45
秋华
摘要:1 实时需求概览 1.1 实时需求与离线需求的比较 离线需求,一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。 实时需求,主要侧重于对当日数据的实时监控,通常业务逻辑相对离线需求简单一下,统计指标也少一些,但是更注重数据的时效性,以及用户的交互性。 1.2 需求明细 1.
阅读全文
posted @ 2020-09-11 21:30
秋华
摘要:1 安装ZK 集群规划 服务器hadoop102 服务器hadoop103 服务器hadoop104 Zookeeper Zookeeper Zookeeper Zookeeper 2.2 ZK集群启动停止脚本 1)在hadoop102的/home/atguigu/bin目录下创建脚本 [atgui
阅读全文
posted @ 2020-08-14 20:27
秋华