随笔分类 -  hadoop

1 2 3 4 5 ··· 7 下一页
hadoop生态圈记录
摘要:1.概述 随着大数据技术的不断发展,处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型,为处理大规模数据提供了有效的解决方案。在这篇博客中,我们将探讨如何使用MapReduce框架读取快照表(Snapshot Table)的数据。快照表是一种记录某一时刻系统状态的表格,通过Ma 阅读全文
posted @ 2023-09-30 20:47 哥不是小萝莉 阅读(384) 评论(0) 推荐(1) 编辑
摘要:1.概述 本篇博客将对Ignite的基础环境、集群快照、分布式计算、SQL查询与处理、机器学习等内容进行介绍。 2.内容 2.1 什么是Ignite? 在学习Ignite之前,我们先来了解一下什么是Ignite?首先,Ignite是Apache开源的顶级项目之一。Ignite 内存数组组织框架是一个 阅读全文
posted @ 2022-10-30 17:46 哥不是小萝莉 阅读(1708) 评论(0) 推荐(1) 编辑
摘要:1.概述 Kafka系统的灵活多变,让它拥有丰富的拓展性,可以与第三方套件很方便的对接。例如,实时计算引擎Spark。接下来通过一个完整案例,运用Kafka和Spark来合理完成。 2.内容 2.1 初始Spark 在大数据应用场景中,面对实时计算、处理流数据、降低计算耗时等问题时,Apache S 阅读全文
posted @ 2022-07-31 17:14 哥不是小萝莉 阅读(1867) 评论(0) 推荐(1) 编辑
摘要:1.概述 Apache Ranger提供了一个集中式的安全管理框架,用户可以通过操作Ranger Admin页面来配置各种策略,从而实现对Hadoop生成组件,比如HDFS、YARN、Hive、HBase、Kafka等进行细粒度的数据访问控制。本篇博客,笔者将为大家介绍如何Apache Ranger 阅读全文
posted @ 2022-03-27 14:04 哥不是小萝莉 阅读(3820) 评论(1) 推荐(2) 编辑
摘要:1.概述 最近有被留言关于ClickHouse的使用问题,今天笔者将为大家分享一下ClickHouse的安装细节和使用方法。 2.内容 首先安装环境如下所示: Linux:CentOS7 ClickHouse:21.8.10.19 2.1 ClickHouse是什么? ClickHouse是一个真正 阅读全文
posted @ 2021-10-31 21:43 哥不是小萝莉 阅读(2338) 评论(1) 推荐(0) 编辑
摘要:1.概述 Kafka是一个分布表示实时数据流平台,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。它提供了发布与订阅的功能,用户可以发送数据到Kafka集群中,也可以从Kafka集群中读取数据。之前在Kafka 2.8.0版本时,Kafka社区提出了KRaft协议的概念,现在社区发布了Ka 阅读全文
posted @ 2021-09-25 15:51 哥不是小萝莉 阅读(5449) 评论(1) 推荐(2) 编辑
摘要:1.概述 离线数据处理生态系统包含许多关键任务,最大限度的提高数据管道基础设施的稳定性和效率是至关重要的。这边博客将分享Hive和Spark分区的各种策略,以最大限度的提高数据工程生态系统的稳定性和效率。 2.内容 大多数Spark Job可以通过三个阶段来表述,即读取输入数据、使用Spark处理、 阅读全文
posted @ 2021-06-27 17:18 哥不是小萝莉 阅读(1629) 评论(0) 推荐(0) 编辑
摘要:1.概述 在机器学习里面,常见的预测算法有以下几种: 简易平均法:包括几何平均法、算数平均法及加权平均法; 移动平均法:包括简单移动平均法和加权移动平均法; 指数平滑法:包括一次指数平滑法和二次指数平滑法,以及三次指数平滑法; 线性回归法:包括一元线性回归和二元线性回归。 本篇博客,笔者将为大家主要 阅读全文
posted @ 2021-03-28 17:40 哥不是小萝莉 阅读(2643) 评论(0) 推荐(2) 编辑
摘要:1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下数据场景,比如有这样一个数据场景,有一批实时流数据实时写入Kafka,然后需要对Topic中的数据进 阅读全文
posted @ 2020-12-26 17:03 哥不是小萝莉 阅读(6959) 评论(2) 推荐(3) 编辑
摘要:1.概述 前面的博客介绍过如何构建一个推荐系统,以及简要的介绍了协同过滤的实现。本篇博客,笔者将介绍协同过滤在推荐系统的应用。推荐系统是大数据和机器学习中最常见、最容易理解的应用之一。其实,在日常的生活当中,我们会频繁的遇到推荐的场景 ,比如你在电商网站购买商品、使用视频App观看视频、在手机上下载 阅读全文
posted @ 2020-10-30 00:58 哥不是小萝莉 阅读(1171) 评论(0) 推荐(2) 编辑
摘要:1.概述 前面介绍过什么是推荐系统,以及推荐系统中的用例,比如基于用户的协同过滤来构建推荐系统。今天给大家介绍如何构建一个生产环境的推荐系统。 2.内容 现在互联网上的内容很多,我们可能每天都会接受来自不同消息。例如,电商网站、阅读博客、各类新闻文章等。但是,这些消息并不是所有的内容你都感兴趣,可能 阅读全文
posted @ 2020-08-17 08:30 哥不是小萝莉 阅读(1826) 评论(0) 推荐(2) 编辑
摘要:1.概述 之前介绍了如何构建一个推荐系统,今天给大家介绍如何基于用户的协同过滤来构建推荐的实战篇。 2.内容 协同过滤技术在推荐系统中应用的比较广泛,它是一个快速发展的研究领域。它比较常用的两种方法是基于内存(Memory-Based)和基于模型(Model-Based)。 基于内存:主要通过计算近 阅读全文
posted @ 2020-06-25 13:54 哥不是小萝莉 阅读(2203) 评论(1) 推荐(2) 编辑
摘要:1.概述 最近有同学咨询说,Kafka的SSL安全认证如何安装与使用?今天笔者将通过以下几个方面来介绍Kafka的SSL: Kafka 权限介绍 Kafka SSL的安装与使用 Kafka Eagle中如何配置SSL? 2.内容 2.1 什么是Kafka权限认证? 在Kafka 0.9.0.0之后, 阅读全文
posted @ 2020-05-24 13:33 哥不是小萝莉 阅读(9366) 评论(0) 推荐(3) 编辑
摘要:1.概述 最近有被咨询到一些关于推荐系统的问题,今天笔者将为大家分享一些关于如何构建一个推荐系统。 2.内容 2.1 什么是推荐系统? 推荐系统是一种信息过滤系统,它旨在预测用户对某项商品的评价。然后,此预测的评分用于向用户推荐商品。预测评分较高的商品将推荐给用户,这个推荐系统用于推荐范围广泛的项目 阅读全文
posted @ 2020-04-19 16:12 哥不是小萝莉 阅读(3273) 评论(7) 推荐(12) 编辑
摘要:1.概述 最近有同学留言咨询,Flink消费Kafka的一些问题,今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据,通过Flink任务来消费并存储到HDFS上。 2.内容 这里举个消费Kafka的数据的场景。比如,电商平台、游戏平台产生的用户数据,入库到Kafka中的Topic进行存储,然 阅读全文
posted @ 2020-03-15 18:26 哥不是小萝莉 阅读(19687) 评论(2) 推荐(2) 编辑
摘要:1.概述 最近有些同学在学习Kafka时,问到Kafka的日志压缩(Log Compaction)问题,对于Kafka的日志压缩有些疑惑,今天笔者就为大家来剖析一下Kafka的日志压缩的相关内容。 2.内容 2.1 日志压缩是什么? Kafka是一个基于Log的流处理系统,一个Topic可以有若干个 阅读全文
posted @ 2020-01-19 10:01 哥不是小萝莉 阅读(4671) 评论(1) 推荐(2) 编辑
摘要:1.概述 HBase是一款非关系型、分布式的KV存储数据库。用来存储海量的数据,用于键值对操作。目前HBase是原生是不包含SQL操作,虽然说Apache Phoenix可以用来操作HBase表,但是需要集成对应的Phoenix依赖包到HBase集群中,同时需要编写对应的Schema才能实现SQL操 阅读全文
posted @ 2019-10-27 13:47 哥不是小萝莉 阅读(5523) 评论(0) 推荐(2) 编辑
摘要:1.概述 在实际的应用场景中,数据存储在HBase集群中,但是由于一些特殊的原因,需要将数据从HBase迁移到Kafka。正常情况下,一般都是源数据到Kafka,再有消费者处理数据,将数据写入HBase。但是,如果逆向处理,如何将HBase的数据迁移到Kafka呢?今天笔者就给大家来分享一下具体的实 阅读全文
posted @ 2019-09-15 12:04 哥不是小萝莉 阅读(2819) 评论(0) 推荐(1) 编辑
摘要:1.概述 Kafka Eagle是一款开源的Kafka集群监控系统,源代码托管在Github。目前Kafka Eagle已更新到V1.3.4版本,域名已经统一更新为http://www.kafka-eagle.org/,之前的下载地址和官网使用手册地址均已替换,例如http://download.s 阅读全文
posted @ 2019-07-14 21:13 哥不是小萝莉 阅读(2941) 评论(11) 推荐(1) 编辑
摘要:1.前言 在大数据时代,Hadoop有着得天独厚的优势。然而,每个企业的技术储备和需求特点不同,他们希望从海量的客户数据中挖掘真正的商业价值,像Google、Facebook、Twitter等这样的企业更是Hadoop的最早获益者。那么,今天我们就来聊一聊,万亿数据下Hadoop的核心竞争力。 2. 阅读全文
posted @ 2019-06-17 09:19 哥不是小萝莉 阅读(1618) 评论(0) 推荐(4) 编辑

1 2 3 4 5 ··· 7 下一页