摘要: 1.概述 Kafka是一个分布表示实时数据流平台,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。它提供了发布与订阅的功能,用户可以发送数据到Kafka集群中,也可以从Kafka集群中读取数据。之前在Kafka 2.8.0版本时,Kafka社区提出了KRaft协议的概念,现在社区发布了Ka 阅读全文
posted @ 2021-09-25 15:51 哥不是小萝莉 阅读(913) 评论(1) 推荐(2) 编辑
摘要: 1.概述 随着微服务和分布式计算的出现,Kafka已经成为各种主流平台系统架构中不可缺少的组成部分了。在本篇文章中,笔者将尝试为大家来解密Kafka的内部存储机制是如何运作的。 2.内容 在分布式系统中构建操作简单性,尤其是对于细微的行为,通常需要经过生产实践后才能总结出经验。而Kafka的流行很大 阅读全文
posted @ 2021-08-31 01:17 哥不是小萝莉 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 1.概述 流处理是一种用来处理无穷数据集的数据处理引擎。通常无穷数据集具有以下几个特点: 无穷数据:持续产生的数据,它们通常会被称为流数据。例如:银行信用卡交易订单、股票交易就、游戏角色移动产生的数据等; 低延时:流数据通常都是实时处理,数据实时产生,然后流处理引擎实时处理流数据,因此延时很短。 2 阅读全文
posted @ 2021-07-31 23:49 哥不是小萝莉 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 1.概述 离线数据处理生态系统包含许多关键任务,最大限度的提高数据管道基础设施的稳定性和效率是至关重要的。这边博客将分享Hive和Spark分区的各种策略,以最大限度的提高数据工程生态系统的稳定性和效率。 2.内容 大多数Spark Job可以通过三个阶段来表述,即读取输入数据、使用Spark处理、 阅读全文
posted @ 2021-06-27 17:18 哥不是小萝莉 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 1.概述 前面一篇博客给大家介绍了多元线性回归的一些概念和对应的方程式的代码实现。今天笔者再为大家介绍线性回归的实战演练。比如,通过空气湿度、气压、风速等来预测当天的温度。 2.内容 线性回归是对标量因变量和一个或者多个自变量之前的线性关系的建模的最简单,且非常强大的方法。线性回归方程公式如下: 接 阅读全文
posted @ 2021-05-29 19:23 哥不是小萝莉 阅读(294) 评论(1) 推荐(1) 编辑
摘要: 1.概述 最近Kafka官网发布了2.8版本,在该版本中引入了KRaft模式。鉴于新版本和新特性的引入,相关使用资料较少,那边本篇博客笔者将为大家介绍Kafka2.8的安装和使用。 2.内容 2.1 版本介绍 2.1.1 目的 从Kafka2.8版本开始,可以不用Apache Zookeeper来作 阅读全文
posted @ 2021-04-30 16:31 哥不是小萝莉 阅读(4530) 评论(3) 推荐(0) 编辑
摘要: 1.概述 在机器学习里面,常见的预测算法有以下几种: 简易平均法:包括几何平均法、算数平均法及加权平均法; 移动平均法:包括简单移动平均法和加权移动平均法; 指数平滑法:包括一次指数平滑法和二次指数平滑法,以及三次指数平滑法; 线性回归法:包括一元线性回归和二元线性回归。 本篇博客,笔者将为大家主要 阅读全文
posted @ 2021-03-28 17:40 哥不是小萝莉 阅读(639) 评论(0) 推荐(2) 编辑
摘要: 1.概述 在大数据的浪潮下,时时刻刻都会产生大量的数据。比如社交媒体、博客、电子商务等等,这些数据会以不同的类型存储在不同的平台里面。为了执行ETL(提取、转换、加载)操作,需要一个消息中间件系统,该系统应该是异步和低耦合的,即来自各种存储系统(如HDFS、Cassandra、RDBMS等)的数据可 阅读全文
posted @ 2021-02-28 16:12 哥不是小萝莉 阅读(741) 评论(0) 推荐(2) 编辑
摘要: 1.概述 最近有同学留言在使用Kafka的过程中遇到一些问题,比如在拉取的Topic中的数据时会抛出一些异常,今天笔者就为大家来分享一下Kafka的Fetch流程。 2.内容 2.1 背景 首先,我们来了解一下,Fetch Session的目标。Kafka在1.1.0以后的版本中优化了Fetch问题 阅读全文
posted @ 2021-01-31 14:14 哥不是小萝莉 阅读(1474) 评论(0) 推荐(1) 编辑
摘要: 1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下数据场景,比如有这样一个数据场景,有一批实时流数据实时写入Kafka,然后需要对Topic中的数据进 阅读全文
posted @ 2020-12-26 17:03 哥不是小萝莉 阅读(3384) 评论(1) 推荐(3) 编辑
摘要: 1.概述 Kafka是一个分布式消息中间件系统,里面存储着实际场景中的数据。Kafka原生是不支持点查询的,如果我们想对存储在Topic中的数据进行查询,可能需要对Topic中的数据进行消费落地,然后构建索引(或者数据落地到自带所以的存储系统中,例如HBase、Hive等)。今天,笔者就为大家来介绍 阅读全文
posted @ 2020-11-30 00:24 哥不是小萝莉 阅读(811) 评论(4) 推荐(1) 编辑
摘要: 1.概述 前面的博客介绍过如何构建一个推荐系统,以及简要的介绍了协同过滤的实现。本篇博客,笔者将介绍协同过滤在推荐系统的应用。推荐系统是大数据和机器学习中最常见、最容易理解的应用之一。其实,在日常的生活当中,我们会频繁的遇到推荐的场景 ,比如你在电商网站购买商品、使用视频App观看视频、在手机上下载 阅读全文
posted @ 2020-10-30 00:58 哥不是小萝莉 阅读(644) 评论(0) 推荐(2) 编辑
摘要: 1.概述 最近有同学咨询Kafka的消费和心跳机制,今天笔者将通过这篇博客来逐一介绍这些内容。 2.内容 2.1 Kafka消费 首先,我们来看看消费。Kafka提供了非常简单的消费API,使用者只需初始化Kafka的Broker Server地址,然后实例化KafkaConsumer类即可拿到To 阅读全文
posted @ 2020-09-28 08:35 哥不是小萝莉 阅读(2900) 评论(0) 推荐(2) 编辑
摘要: 1.概述 前面介绍过什么是推荐系统,以及推荐系统中的用例,比如基于用户的协同过滤来构建推荐系统。今天给大家介绍如何构建一个生产环境的推荐系统。 2.内容 现在互联网上的内容很多,我们可能每天都会接受来自不同消息。例如,电商网站、阅读博客、各类新闻文章等。但是,这些消息并不是所有的内容你都感兴趣,可能 阅读全文
posted @ 2020-08-17 08:30 哥不是小萝莉 阅读(1433) 评论(0) 推荐(2) 编辑
摘要: 1.概述 Kafka Eagle是一款用于管理Kafka的监控系统,且完全开源。当前Kafka Eagle发布了2.0.0版本。今天笔者就为大家来介绍一下2.0.0更新了哪些功能。 官网地址:http://www.kafka-eagle.org/ 开源地址:https://github.com/sm 阅读全文
posted @ 2020-07-13 09:16 哥不是小萝莉 阅读(2761) 评论(11) 推荐(3) 编辑
摘要: 1.概述 之前介绍了如何构建一个推荐系统,今天给大家介绍如何基于用户的协同过滤来构建推荐的实战篇。 2.内容 协同过滤技术在推荐系统中应用的比较广泛,它是一个快速发展的研究领域。它比较常用的两种方法是基于内存(Memory-Based)和基于模型(Model-Based)。 基于内存:主要通过计算近 阅读全文
posted @ 2020-06-25 13:54 哥不是小萝莉 阅读(1293) 评论(1) 推荐(2) 编辑
摘要: 1.概述 最近有同学咨询说,Kafka的SSL安全认证如何安装与使用?今天笔者将通过以下几个方面来介绍Kafka的SSL: Kafka 权限介绍 Kafka SSL的安装与使用 Kafka Eagle中如何配置SSL? 2.内容 2.1 什么是Kafka权限认证? 在Kafka 0.9.0.0之后, 阅读全文
posted @ 2020-05-24 13:33 哥不是小萝莉 阅读(4677) 评论(0) 推荐(3) 编辑
摘要: 1.概述 最近有被咨询到一些关于推荐系统的问题,今天笔者将为大家分享一些关于如何构建一个推荐系统。 2.内容 2.1 什么是推荐系统? 推荐系统是一种信息过滤系统,它旨在预测用户对某项商品的评价。然后,此预测的评分用于向用户推荐商品。预测评分较高的商品将推荐给用户,这个推荐系统用于推荐范围广泛的项目 阅读全文
posted @ 2020-04-19 16:12 哥不是小萝莉 阅读(2617) 评论(6) 推荐(12) 编辑
摘要: 1.概述 最近有同学留言咨询,Flink消费Kafka的一些问题,今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据,通过Flink任务来消费并存储到HDFS上。 2.内容 这里举个消费Kafka的数据的场景。比如,电商平台、游戏平台产生的用户数据,入库到Kafka中的Topic进行存储,然 阅读全文
posted @ 2020-03-15 18:26 哥不是小萝莉 阅读(13138) 评论(2) 推荐(2) 编辑
摘要: 1.概述 最近有同学在学习Kafka的网络通信这块内容时遇到一些疑问,关于网络模型和通信流程的相关内容,这里笔者将通过这篇博客为大家来剖析一下这部分内容。 2.内容 Kafka系统作为一个Message Queue,涉及到的网络通信主要包含以下两个方面: Pull:Consumer从消息队列中拉取消 阅读全文
posted @ 2020-02-09 14:41 哥不是小萝莉 阅读(2370) 评论(0) 推荐(3) 编辑
摘要: 1.概述 Kafka是一个分布表示实时数据流平台,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。它提供了发布与订阅的功能,用户可以发送数据到Kafka集群中,也可以从Kafka集群中读取数据。之前在Kafka 2.8.0版本时,Kafka社区提出了KRaft协议的概念,现在社区发布了Ka 阅读全文
posted @ 2021-09-25 15:51 哥不是小萝莉 阅读(913) 评论(1) 推荐(2) 编辑
摘要: 1.概述 随着微服务和分布式计算的出现,Kafka已经成为各种主流平台系统架构中不可缺少的组成部分了。在本篇文章中,笔者将尝试为大家来解密Kafka的内部存储机制是如何运作的。 2.内容 在分布式系统中构建操作简单性,尤其是对于细微的行为,通常需要经过生产实践后才能总结出经验。而Kafka的流行很大 阅读全文
posted @ 2021-08-31 01:17 哥不是小萝莉 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 1.概述 流处理是一种用来处理无穷数据集的数据处理引擎。通常无穷数据集具有以下几个特点: 无穷数据:持续产生的数据,它们通常会被称为流数据。例如:银行信用卡交易订单、股票交易就、游戏角色移动产生的数据等; 低延时:流数据通常都是实时处理,数据实时产生,然后流处理引擎实时处理流数据,因此延时很短。 2 阅读全文
posted @ 2021-07-31 23:49 哥不是小萝莉 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 1.概述 离线数据处理生态系统包含许多关键任务,最大限度的提高数据管道基础设施的稳定性和效率是至关重要的。这边博客将分享Hive和Spark分区的各种策略,以最大限度的提高数据工程生态系统的稳定性和效率。 2.内容 大多数Spark Job可以通过三个阶段来表述,即读取输入数据、使用Spark处理、 阅读全文
posted @ 2021-06-27 17:18 哥不是小萝莉 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 1.概述 前面一篇博客给大家介绍了多元线性回归的一些概念和对应的方程式的代码实现。今天笔者再为大家介绍线性回归的实战演练。比如,通过空气湿度、气压、风速等来预测当天的温度。 2.内容 线性回归是对标量因变量和一个或者多个自变量之前的线性关系的建模的最简单,且非常强大的方法。线性回归方程公式如下: 接 阅读全文
posted @ 2021-05-29 19:23 哥不是小萝莉 阅读(294) 评论(1) 推荐(1) 编辑
摘要: 1.概述 最近Kafka官网发布了2.8版本,在该版本中引入了KRaft模式。鉴于新版本和新特性的引入,相关使用资料较少,那边本篇博客笔者将为大家介绍Kafka2.8的安装和使用。 2.内容 2.1 版本介绍 2.1.1 目的 从Kafka2.8版本开始,可以不用Apache Zookeeper来作 阅读全文
posted @ 2021-04-30 16:31 哥不是小萝莉 阅读(4530) 评论(3) 推荐(0) 编辑
摘要: 1.概述 在机器学习里面,常见的预测算法有以下几种: 简易平均法:包括几何平均法、算数平均法及加权平均法; 移动平均法:包括简单移动平均法和加权移动平均法; 指数平滑法:包括一次指数平滑法和二次指数平滑法,以及三次指数平滑法; 线性回归法:包括一元线性回归和二元线性回归。 本篇博客,笔者将为大家主要 阅读全文
posted @ 2021-03-28 17:40 哥不是小萝莉 阅读(639) 评论(0) 推荐(2) 编辑
摘要: 1.概述 在大数据的浪潮下,时时刻刻都会产生大量的数据。比如社交媒体、博客、电子商务等等,这些数据会以不同的类型存储在不同的平台里面。为了执行ETL(提取、转换、加载)操作,需要一个消息中间件系统,该系统应该是异步和低耦合的,即来自各种存储系统(如HDFS、Cassandra、RDBMS等)的数据可 阅读全文
posted @ 2021-02-28 16:12 哥不是小萝莉 阅读(741) 评论(0) 推荐(2) 编辑
摘要: 1.概述 最近有同学留言在使用Kafka的过程中遇到一些问题,比如在拉取的Topic中的数据时会抛出一些异常,今天笔者就为大家来分享一下Kafka的Fetch流程。 2.内容 2.1 背景 首先,我们来了解一下,Fetch Session的目标。Kafka在1.1.0以后的版本中优化了Fetch问题 阅读全文
posted @ 2021-01-31 14:14 哥不是小萝莉 阅读(1474) 评论(0) 推荐(1) 编辑
摘要: 1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下数据场景,比如有这样一个数据场景,有一批实时流数据实时写入Kafka,然后需要对Topic中的数据进 阅读全文
posted @ 2020-12-26 17:03 哥不是小萝莉 阅读(3384) 评论(1) 推荐(3) 编辑