……

上一页 1 2 3 4 5 6 ··· 36 下一页
2022年8月31日
摘要: Golden Gate(简称OGG)提供异构环境下交易数据的实时捕捉、变换、投递。 1、OGG原理 OGG是一种基于日志的结构化数据复制软件,通过捕获源数据库online redo log (在线重做日志)或archive log(归档日志)获得数据变化,形成tail(队列文件 ),再将这些tail 阅读全文
posted @ 2022-08-31 23:27 大码王 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 1. 什么是Redis?它主要用来什么的? Redis,英文全称是Remote Dictionary Server(远程字典服务),是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。 与MySQL数据库不同的是,Redis 阅读全文
posted @ 2022-08-31 23:21 大码王 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 1、 HBase的特点是什么?1)大:一个表可以有数十亿行,上百万列;2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;3)面向列:面向列(族)的存储和权限控制,列(族)独立检索;4)稀疏:空(null)列并不占用存储空间,表可以设计的 阅读全文
posted @ 2022-08-31 23:18 大码王 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 第一章、datax入门 一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 (这是一个单机多任务的ETL工具) 下载地址:​ ​h 阅读全文
posted @ 2022-08-31 23:10 大码王 阅读(399) 评论(0) 推荐(0) 编辑
摘要: flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 使用Taildir Source采集文件夹数据 阅读全文
posted @ 2022-08-31 23:07 大码王 阅读(70) 评论(0) 推荐(0) 编辑
摘要: sqoop概述 sqoop是连接关系型数据库和hadoop的桥梁,主要有两个方面(导入和导出): A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中,如 Hive和HBase B. 将数据从Hadoop 系统里抽取并导出到关系型数据库 1、Sqoop导入导出Null存储一致性问题 Hiv 阅读全文
posted @ 2022-08-31 23:06 大码王 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 1 cdc 简介 CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术,Flink 从 1.11 版本开始原生支持 CDC 数据(changelog)的处理,目前已经是非常成熟的变更数据处理方案。 Flink CDC Connectors 是 Flink 的一组 S 阅读全文
posted @ 2022-08-31 23:05 大码王 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 1.什么是Apache Flink(为什么使用 Flink 替代 Spark?) Apache Flink 是一个开源的基于流的有状态计算框架。它是分布式地执行的,具备低延迟、高吞吐的优秀性能,并且非常擅长处理有状态的复杂计算逻辑场景。 2.Flink 的核心概念 Flink 的核心概念主要有四个: 阅读全文
posted @ 2022-08-31 23:03 大码王 阅读(472) 评论(0) 推荐(0) 编辑
摘要: 一、Spark 基础篇 1、Spark 是什么? Spark 是一个通用分布式内存计算引擎。2009 年在加州大学伯克利分校 AMP 实验室诞生,2014 年 2 月,Spark 成为 Apache 的顶级项目。Logo 标志如下: 2、Spark 有哪些特点? Spark 使用 Scala 语言进 阅读全文
posted @ 2022-08-31 23:02 大码王 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 1、简单介绍一下ClickHouse ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse,简称ClickHouse。 ClickHouse非常适用于商业智能领域 阅读全文
posted @ 2022-08-31 23:01 大码王 阅读(2139) 评论(0) 推荐(0) 编辑
摘要: 1、 什么是 kafka ? Kafka 起初是由 Linkedin 公司采用 Scala 语言开发的一个多分区、多副本且基于ZooKeeper协调的分布式消息系统,现己被捐献给 Apache 基金会。目前 Kafka 已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处 阅读全文
posted @ 2022-08-31 22:56 大码王 阅读(153) 评论(0) 推荐(0) 编辑
摘要: Python及PyCharm的环境搭建 一、安装Python解释器 官网下载地址:https://www.python.org/,以Windows为例。 1.点击Downloads—>All releases >点击Python3.9.0 2.下载完成后,双击python-3.9.0-amd64.e 阅读全文
posted @ 2022-08-31 10:38 大码王 阅读(438) 评论(0) 推荐(0) 编辑
2022年8月30日
摘要: 一、MapReduce的shuffle 1、mapShuffle 数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的 在某个节点上启动了mapTask,mapTask读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数 阅读全文
posted @ 2022-08-30 20:32 大码王 阅读(243) 评论(0) 推荐(0) 编辑
2022年7月21日
摘要: 日志审计与分析实验4-1 一、实验目的 掌握Linux下安装、删除软件的方法。 二、 Linux软件安装的三种方法 1、yum源安装/apt源安装(Ubuntu或Debian)(简单) 1、什么是源? 源就是安装软件时,程序从哪里获取软件包(安装程序在你的机器上,但需要安装的东西却在软件源服务器上) 阅读全文
posted @ 2022-07-21 10:46 大码王 阅读(82) 评论(0) 推荐(0) 编辑
摘要: 日志审计与分析-日志筛选 实验目的:使用linux 下grep 命令筛选登录日志 1、练习使用grep命令 (1)grep命令的作用? Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。grep全称是Global Regular Expressi 阅读全文
posted @ 2022-07-21 10:43 大码王 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 日志审计与分析实验一 1、安装Linux实验环境 2、 了解CentOS系统日志 日志文件的分类: 内核及系统日志:由系统服务syslog统一进行管理,日志格式基本相似 用户日志:记录系统用户登录及退出系统的相关信息 程序日志:由各种应用程序独立管理的日志文件,记录格式不统一 3、实验步骤 1、了解 阅读全文
posted @ 2022-07-21 10:38 大码王 阅读(518) 评论(0) 推荐(1) 编辑
摘要: Linux日志收集 一、实验目的: 1、掌握rsyslog配置方法 2、配置rsyslog服务收集其他Linux服务器日志: C/S架构:客户端将其日志上传到服务器端,通过对服务器端日志的查询,来实现对其他客户端的日志进行集中管理;下面实现就是通过两套机器来实现,(server:198.168.22 阅读全文
posted @ 2022-07-21 10:34 大码王 阅读(375) 评论(0) 推荐(0) 编辑
2022年7月1日
摘要: 在maven项目中,怎么写Scala项目呢?下面是具体步骤,希望能帮到你哦 1.新建一个Maven项目 2.新建文件夹scala,并且将文件夹设置为resource root 3.添加scala library 4.添加scala插件,前提是先在settings-plugins中下载安装哦(附步骤) 阅读全文
posted @ 2022-07-01 11:50 大码王 阅读(699) 评论(0) 推荐(0) 编辑
2022年5月13日
摘要: 一、问题描述: 我是非root的服务器账号,因为始终无法访问某个sshfs的挂载文件夹,于是想取消挂载后重新挂载。但是取消挂载时,所有对该文件的命令均卡住,并且导致vs code的 remote-ssh无法正常登录。 表征1:remote-ssh 无法登陆 问题主要是挂载有问题,用VS code使用 阅读全文
posted @ 2022-05-13 18:40 大码王 阅读(394) 评论(0) 推荐(0) 编辑
摘要: 前言 第三方jar包在开发工具中引入后编译没问题, 启动调试包括打包时会提示找不到jar包的错误.需要上传到maven仓库中,并在pom文件内引入. 导入jar包 点击Project Structure进行项目设置,在Modules中Dependencies标签中点击+号 添加lib下的所有jar 阅读全文
posted @ 2022-05-13 11:09 大码王 阅读(1476) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 36 下一页
复制代码