大数据处理 - 随笔分类 - 鄙人取个名字好难

Kafka Rebalance 机制

摘要：触发 Rebalance 的时机 Rebalance 发生的本质是消费者组成员或订阅信息发生了变化，导致原有的分区分配不再有效。具体触发时机有三类： 1.消费者组成员数量变化新消费者加入：当一个新的消费者实例加入消费者组时，需要重新分配分区以让新消费者接管部分负载。消费者主动离开：消费者正常关闭阅读全文

posted @ 2026-03-24 12:00 鄙人取个名字好难

Hadoop（一）Linux环境搭建

摘要：1.JDK安装 1.通过 yum -y list java* 搜索JDK版本 2.通过 yum install java-1.8.0-openjdk.x86_64 安装指定版本JDK.安装完成后，可以通过下图方式查询安装目录 3.配置 JAVA_HOME 环境变量通过 vim /etc/profi 阅读全文

posted @ 2026-03-20 12:25 鄙人取个名字好难

Hadoop（二）基本概念

摘要：(一)Hadoop 整体设计 Hadoop 框架是用于计算机集群大数据处理的框架，所以它必须是一个可以部署在多台计算机上的软件。部署了 Hadoop 软件的主机之间通过套接字 (网络) 进行通讯。 Hadoop 主要包含 HDFS 和 MapReduce 两大组件，HDFS 负责分布储存数据，Map 阅读全文

posted @ 2026-03-20 12:25 鄙人取个名字好难阅读(9) 评论(0) 推荐(0)

Hadoop（三）命令指南

摘要：概览 All HDFS commands are invoked by the bin/hdfs script. Running the hdfs script without any arguments prints the description for all commands. Usage: 阅读全文

posted @ 2026-03-20 12:25 鄙人取个名字好难

Kafka之SpringBoot集成Kafka实战

摘要：在spring应用中如果需要订阅kafka消息，通常情况下我们不会直接使用kafka-client, 而是使用更方便的一层封装spring-kafka。在spring-kafka在运行时会启动两类线程，一类是Consumer线程，另一类是Listener线程。前者用来直接调用kafka-clien 阅读全文

posted @ 2021-02-07 01:18 鄙人取个名字好难

Kafka之Zookeeper

摘要：ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。 Zookeeper的工作机制 Zookeeper 阅读全文

posted @ 2021-02-05 23:09 鄙人取个名字好难

ElasticSearch-rollover

摘要：rollover可以根据索引大小，文档数或使用期限自动过渡到新索引。当rollover触发后，将创建新索引，写别名（write alias)将更新为指向新索引，所有后续更新都将写入新索引。对于基于时间的rollover来说，基于大小，文档数或使用期限过渡至新索引是比较适合的。在任意时间rollo 阅读全文

posted @ 2021-01-20 18:16 鄙人取个名字好难

ElasticSearch-集群

摘要：分布式特性 Elasticsearch 可以横向扩展至数百（甚至数千）的服务器节点，同时可以处理PB级数据。Elasticsearch 天生就是分布式的，并且在设计时屏蔽了分布式的复杂性。这里列举了一些在后台自动执行的操作：分配文档到不同的容器或分片中，文档可以储存在一个或多个节点中按集群阅读全文

posted @ 2021-01-20 07:40 鄙人取个名字好难

ElasticSearch-倒排索引

摘要：什么是倒排索引倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地来讲，正向索引是通过key找value，反向索引则是通过value找key。当用户在主页上搜索关键词“华为手机”时，假设只存在正向索引（forward index），那么就需要扫描索引库中的所有文档阅读全文

posted @ 2021-01-18 18:11 鄙人取个名字好难

ElasticSearch-IK分词器

摘要：IK分词器插件安装 1.安装插件并重启 root@ryj-dev10:/opt/modules# docker container psCONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES592f35773efc kibana:7.10.1 "/ 阅读全文

posted @ 2021-01-18 13:48 鄙人取个名字好难

ElasticSearch-数据类型

摘要：文本类型 text：当一个字段需要用于全文搜索(会被分词), 比如产品名称、产品描述信息, 就应该使用text类型. keyword：当一个字段需要按照精确值(不会被分词)进行过滤、排序、聚合等操作时, 就应该使用keyword类型. 数字类型日期类型 date：在ES中, 日期可以是包含格式化日阅读全文

posted @ 2021-01-17 18:47 鄙人取个名字好难

ElasticSearch-REST APIS

摘要：接口语法点击官方API url -X<VERB> '<PROTOCOL>://<HOST>:<PORT>/<PATH>?<QUERY_STRING>' -d '<BODY>' 使用示例 index PUT /<index> You can use the create index API to a 阅读全文

posted @ 2021-01-17 16:54 鄙人取个名字好难

ElasticSearch-kibana安装

摘要：1.docker拉取kibana镜像 docker pull kibana:7.10.1 2.启动容器 docker run --name kibana -d -p 5601:5601 kibana:7.10.1 此时容器启动成功，但是页面访问 http://IP:5601/ 会提示错误：[Kiba 阅读全文

posted @ 2021-01-16 11:33 鄙人取个名字好难

ElasticSearch-简介及安装

摘要：ES=elaticsearch简写， Elasticsearch是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是阅读全文

posted @ 2021-01-04 18:09 鄙人取个名字好难

Kafka之Zero-Copy

摘要：传统的文件拷贝传统的读取文件数据并发送到网络的步骤如下：（1）操作系统将数据从磁盘文件中读取到内核空间的页面缓存；（2）应用程序将数据从内核空间读入用户空间缓冲区；（3）应用程序将读到数据写回内核空间并放入socket缓冲区；（4）操作系统将数据从socket缓冲区复制到网卡接口，此时数据阅读全文

posted @ 2020-03-23 22:30 鄙人取个名字好难

Kafka之存储机制

摘要：producer以及consumer如何知道该去哪个broker传送以及消费数据 producer可以指定一个或者多个broker的信息（ip:port），来获取kafka集群的元信息（最好多指定几个，否则这个broker连接不上了，就over了）。每个broker,topic有多少partitio 阅读全文

posted @ 2020-03-23 21:29 鄙人取个名字好难

kafka之操作命令

摘要：查看kafka版本进入kafka安装目录 ... kafka/libs，看到类似kafka_2.12-2.0.0.jar这样的文件，2.12为scala版本，2.0.0是kafka版本（kafka使用了Scala进行开发）. zookeeper-server-start.sh 参照 kafka环境阅读全文

posted @ 2020-03-22 21:08 鄙人取个名字好难

Kafka之环境搭建

摘要：环境准备 JDK + Kafka Kafka配置文件说明 /kafka_2.11-2.4.1/config/zookeeper.properties （zookeeper配置文件，管理kafka的broker） /kafka_2.11-2.4.1/config/server.properties # 阅读全文

posted @ 2018-04-23 15:32 鄙人取个名字好难

kafka之基本概念

摘要：Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统。producers通过网络将消息发送到Kafka集群，集群向消费者提供消息，如下图所示：客户端和服务端通过TCP协议通信。Kafka提阅读全文

posted @ 2018-04-10 14:43 鄙人取个名字好难

鄙人取个名字好难

路漫漫其修远兮，吾将上下而求索

随笔分类 - 大数据处理

公告