摘要:1.概述 Kafka是一个分布式消息中间件系统,里面存储着实际场景中的数据。Kafka原生是不支持点查询的,如果我们想对存储在Topic中的数据进行查询,可能需要对Topic中的数据进行消费落地,然后构建索引(或者数据落地到自带所以的存储系统中,例如HBase、Hive等)。今天,笔者就为大家来介绍 阅读全文
posted @ 2020-11-30 00:24 哥不是小萝莉 阅读(296) 评论(3) 推荐(1) 编辑
摘要:1.概述 前面的博客介绍过如何构建一个推荐系统,以及简要的介绍了协同过滤的实现。本篇博客,笔者将介绍协同过滤在推荐系统的应用。推荐系统是大数据和机器学习中最常见、最容易理解的应用之一。其实,在日常的生活当中,我们会频繁的遇到推荐的场景 ,比如你在电商网站购买商品、使用视频App观看视频、在手机上下载 阅读全文
posted @ 2020-10-30 00:58 哥不是小萝莉 阅读(255) 评论(0) 推荐(2) 编辑
摘要:1.概述 最近有同学咨询Kafka的消费和心跳机制,今天笔者将通过这篇博客来逐一介绍这些内容。 2.内容 2.1 Kafka消费 首先,我们来看看消费。Kafka提供了非常简单的消费API,使用者只需初始化Kafka的Broker Server地址,然后实例化KafkaConsumer类即可拿到To 阅读全文
posted @ 2020-09-28 08:35 哥不是小萝莉 阅读(937) 评论(0) 推荐(2) 编辑
摘要:1.概述 前面介绍过什么是推荐系统,以及推荐系统中的用例,比如基于用户的协同过滤来构建推荐系统。今天给大家介绍如何构建一个生产环境的推荐系统。 2.内容 现在互联网上的内容很多,我们可能每天都会接受来自不同消息。例如,电商网站、阅读博客、各类新闻文章等。但是,这些消息并不是所有的内容你都感兴趣,可能 阅读全文
posted @ 2020-08-17 08:30 哥不是小萝莉 阅读(943) 评论(0) 推荐(2) 编辑
摘要:1.概述 Kafka Eagle是一款用于管理Kafka的监控系统,且完全开源。当前Kafka Eagle发布了2.0.0版本。今天笔者就为大家来介绍一下2.0.0更新了哪些功能。 官网地址:http://www.kafka-eagle.org/ 开源地址:https://github.com/sm 阅读全文
posted @ 2020-07-13 09:16 哥不是小萝莉 阅读(1344) 评论(11) 推荐(3) 编辑
摘要:1.概述 之前介绍了如何构建一个推荐系统,今天给大家介绍如何基于用户的协同过滤来构建推荐的实战篇。 2.内容 协同过滤技术在推荐系统中应用的比较广泛,它是一个快速发展的研究领域。它比较常用的两种方法是基于内存(Memory-Based)和基于模型(Model-Based)。 基于内存:主要通过计算近 阅读全文
posted @ 2020-06-25 13:54 哥不是小萝莉 阅读(442) 评论(1) 推荐(2) 编辑
摘要:1.概述 最近有同学咨询说,Kafka的SSL安全认证如何安装与使用?今天笔者将通过以下几个方面来介绍Kafka的SSL: Kafka 权限介绍 Kafka SSL的安装与使用 Kafka Eagle中如何配置SSL? 2.内容 2.1 什么是Kafka权限认证? 在Kafka 0.9.0.0之后, 阅读全文
posted @ 2020-05-24 13:33 哥不是小萝莉 阅读(1458) 评论(0) 推荐(2) 编辑
摘要:1.概述 最近有被咨询到一些关于推荐系统的问题,今天笔者将为大家分享一些关于如何构建一个推荐系统。 2.内容 2.1 什么是推荐系统? 推荐系统是一种信息过滤系统,它旨在预测用户对某项商品的评价。然后,此预测的评分用于向用户推荐商品。预测评分较高的商品将推荐给用户,这个推荐系统用于推荐范围广泛的项目 阅读全文
posted @ 2020-04-19 16:12 哥不是小萝莉 阅读(2158) 评论(6) 推荐(12) 编辑
摘要:1.概述 最近有同学留言咨询,Flink消费Kafka的一些问题,今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据,通过Flink任务来消费并存储到HDFS上。 2.内容 这里举个消费Kafka的数据的场景。比如,电商平台、游戏平台产生的用户数据,入库到Kafka中的Topic进行存储,然 阅读全文
posted @ 2020-03-15 18:26 哥不是小萝莉 阅读(4628) 评论(1) 推荐(2) 编辑
摘要:1.概述 最近有同学在学习Kafka的网络通信这块内容时遇到一些疑问,关于网络模型和通信流程的相关内容,这里笔者将通过这篇博客为大家来剖析一下这部分内容。 2.内容 Kafka系统作为一个Message Queue,涉及到的网络通信主要包含以下两个方面: Pull:Consumer从消息队列中拉取消 阅读全文
posted @ 2020-02-09 14:41 哥不是小萝莉 阅读(1231) 评论(0) 推荐(3) 编辑
摘要:1.概述 最近有些同学在学习Kafka时,问到Kafka的日志压缩(Log Compaction)问题,对于Kafka的日志压缩有些疑惑,今天笔者就为大家来剖析一下Kafka的日志压缩的相关内容。 2.内容 2.1 日志压缩是什么? Kafka是一个基于Log的流处理系统,一个Topic可以有若干个 阅读全文
posted @ 2020-01-19 10:01 哥不是小萝莉 阅读(1278) 评论(1) 推荐(2) 编辑
摘要:1.概述 最近有很多同学给笔者留言,说在安装Kafka Eagle的时候,会遇到一些问题,请教如何解决?今天笔者就在这里总结一下安装步骤,和一些安装的注意事项,以及解决方式。 2.内容 在安装Kafka Eagle之前,可能新接触的同学对Kafka Eagle不太了解,那我们现在简要介绍一下Kafk 阅读全文
posted @ 2019-12-28 03:22 哥不是小萝莉 阅读(4174) 评论(19) 推荐(4) 编辑
摘要:1.概述 最近和一些同学交流的时候反馈说,在面试Kafka时,被问到Kafka组件组成部分、API使用、Consumer和Producer原理及作用等问题都能详细作答。但是,问到一个平时不注意的问题,就是Kafka的幂等性,被卡主了。那么,今天笔者就为大家来剖析一下Kafka的幂等性原理及实现。 2 阅读全文
posted @ 2019-11-24 15:37 哥不是小萝莉 阅读(6059) 评论(1) 推荐(3) 编辑
摘要:1.概述 HBase是一款非关系型、分布式的KV存储数据库。用来存储海量的数据,用于键值对操作。目前HBase是原生是不包含SQL操作,虽然说Apache Phoenix可以用来操作HBase表,但是需要集成对应的Phoenix依赖包到HBase集群中,同时需要编写对应的Schema才能实现SQL操 阅读全文
posted @ 2019-10-27 13:47 哥不是小萝莉 阅读(1708) 评论(0) 推荐(2) 编辑
摘要:1.概述 在实际的应用场景中,数据存储在HBase集群中,但是由于一些特殊的原因,需要将数据从HBase迁移到Kafka。正常情况下,一般都是源数据到Kafka,再有消费者处理数据,将数据写入HBase。但是,如果逆向处理,如何将HBase的数据迁移到Kafka呢?今天笔者就给大家来分享一下具体的实 阅读全文
posted @ 2019-09-15 12:04 哥不是小萝莉 阅读(1406) 评论(0) 推荐(1) 编辑
摘要:1.概述 目前Kafka ACL支持多种权限认证,今天笔者给大家介绍一下SCRAM和PLAIN的权限认证。验证环境如下: JDK:1.8 Kafka:2.3.0 Kafka Eagle:1.3.8 2.内容 2.1 PLAIN认证 首先,在$KAFAK_HOME/config目录新建一个文本文件,名 阅读全文
posted @ 2019-08-24 14:39 哥不是小萝莉 阅读(1956) 评论(1) 推荐(1) 编辑
摘要:1.概述 Kafka Eagle是一款开源的Kafka集群监控系统,源代码托管在Github。目前Kafka Eagle已更新到V1.3.4版本,域名已经统一更新为http://www.kafka-eagle.org/,之前的下载地址和官网使用手册地址均已替换,例如http://download.s 阅读全文
posted @ 2019-07-14 21:13 哥不是小萝莉 阅读(2403) 评论(7) 推荐(1) 编辑
摘要:1.前言 在大数据时代,Hadoop有着得天独厚的优势。然而,每个企业的技术储备和需求特点不同,他们希望从海量的客户数据中挖掘真正的商业价值,像Google、Facebook、Twitter等这样的企业更是Hadoop的最早获益者。那么,今天我们就来聊一聊,万亿数据下Hadoop的核心竞争力。 2. 阅读全文
posted @ 2019-06-17 09:19 哥不是小萝莉 阅读(1255) 评论(0) 推荐(3) 编辑
摘要:1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟。以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象。那么,今天就来聊一聊基于Kafka的实时计算引擎如何选择?Flink or Spark? 2.为何需要实时计算? 根据IBM的统计报告显示,过去两 阅读全文
posted @ 2019-06-03 09:13 哥不是小萝莉 阅读(4471) 评论(0) 推荐(2) 编辑
摘要:1.前言 Apache Kafka发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。Apache Kafka社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得Apache Kafka功能越发丰富、性能越发稳定,截止本篇博客Apache Kafka发布了V2.2.0 阅读全文
posted @ 2019-05-26 23:48 哥不是小萝莉 阅读(1897) 评论(1) 推荐(2) 编辑
摘要:1.概述 Kafka是一个分布式消息中间件系统,里面存储着实际场景中的数据。Kafka原生是不支持点查询的,如果我们想对存储在Topic中的数据进行查询,可能需要对Topic中的数据进行消费落地,然后构建索引(或者数据落地到自带所以的存储系统中,例如HBase、Hive等)。今天,笔者就为大家来介绍 阅读全文
posted @ 2020-11-30 00:24 哥不是小萝莉 阅读(296) 评论(3) 推荐(1) 编辑
摘要:1.概述 前面的博客介绍过如何构建一个推荐系统,以及简要的介绍了协同过滤的实现。本篇博客,笔者将介绍协同过滤在推荐系统的应用。推荐系统是大数据和机器学习中最常见、最容易理解的应用之一。其实,在日常的生活当中,我们会频繁的遇到推荐的场景 ,比如你在电商网站购买商品、使用视频App观看视频、在手机上下载 阅读全文
posted @ 2020-10-30 00:58 哥不是小萝莉 阅读(255) 评论(0) 推荐(2) 编辑
摘要:1.概述 最近有同学咨询Kafka的消费和心跳机制,今天笔者将通过这篇博客来逐一介绍这些内容。 2.内容 2.1 Kafka消费 首先,我们来看看消费。Kafka提供了非常简单的消费API,使用者只需初始化Kafka的Broker Server地址,然后实例化KafkaConsumer类即可拿到To 阅读全文
posted @ 2020-09-28 08:35 哥不是小萝莉 阅读(937) 评论(0) 推荐(2) 编辑
摘要:1.概述 前面介绍过什么是推荐系统,以及推荐系统中的用例,比如基于用户的协同过滤来构建推荐系统。今天给大家介绍如何构建一个生产环境的推荐系统。 2.内容 现在互联网上的内容很多,我们可能每天都会接受来自不同消息。例如,电商网站、阅读博客、各类新闻文章等。但是,这些消息并不是所有的内容你都感兴趣,可能 阅读全文
posted @ 2020-08-17 08:30 哥不是小萝莉 阅读(943) 评论(0) 推荐(2) 编辑
摘要:1.概述 Kafka Eagle是一款用于管理Kafka的监控系统,且完全开源。当前Kafka Eagle发布了2.0.0版本。今天笔者就为大家来介绍一下2.0.0更新了哪些功能。 官网地址:http://www.kafka-eagle.org/ 开源地址:https://github.com/sm 阅读全文
posted @ 2020-07-13 09:16 哥不是小萝莉 阅读(1344) 评论(11) 推荐(3) 编辑
摘要:1.概述 之前介绍了如何构建一个推荐系统,今天给大家介绍如何基于用户的协同过滤来构建推荐的实战篇。 2.内容 协同过滤技术在推荐系统中应用的比较广泛,它是一个快速发展的研究领域。它比较常用的两种方法是基于内存(Memory-Based)和基于模型(Model-Based)。 基于内存:主要通过计算近 阅读全文
posted @ 2020-06-25 13:54 哥不是小萝莉 阅读(442) 评论(1) 推荐(2) 编辑
摘要:1.概述 最近有同学咨询说,Kafka的SSL安全认证如何安装与使用?今天笔者将通过以下几个方面来介绍Kafka的SSL: Kafka 权限介绍 Kafka SSL的安装与使用 Kafka Eagle中如何配置SSL? 2.内容 2.1 什么是Kafka权限认证? 在Kafka 0.9.0.0之后, 阅读全文
posted @ 2020-05-24 13:33 哥不是小萝莉 阅读(1458) 评论(0) 推荐(2) 编辑
摘要:1.概述 最近有被咨询到一些关于推荐系统的问题,今天笔者将为大家分享一些关于如何构建一个推荐系统。 2.内容 2.1 什么是推荐系统? 推荐系统是一种信息过滤系统,它旨在预测用户对某项商品的评价。然后,此预测的评分用于向用户推荐商品。预测评分较高的商品将推荐给用户,这个推荐系统用于推荐范围广泛的项目 阅读全文
posted @ 2020-04-19 16:12 哥不是小萝莉 阅读(2158) 评论(6) 推荐(12) 编辑
摘要:1.概述 最近有同学留言咨询,Flink消费Kafka的一些问题,今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据,通过Flink任务来消费并存储到HDFS上。 2.内容 这里举个消费Kafka的数据的场景。比如,电商平台、游戏平台产生的用户数据,入库到Kafka中的Topic进行存储,然 阅读全文
posted @ 2020-03-15 18:26 哥不是小萝莉 阅读(4628) 评论(1) 推荐(2) 编辑
摘要:1.概述 最近有同学在学习Kafka的网络通信这块内容时遇到一些疑问,关于网络模型和通信流程的相关内容,这里笔者将通过这篇博客为大家来剖析一下这部分内容。 2.内容 Kafka系统作为一个Message Queue,涉及到的网络通信主要包含以下两个方面: Pull:Consumer从消息队列中拉取消 阅读全文
posted @ 2020-02-09 14:41 哥不是小萝莉 阅读(1231) 评论(0) 推荐(3) 编辑