随笔分类 - 大数据处理
1
摘要:触发 Rebalance 的时机 Rebalance 发生的本质是消费者组成员或订阅信息发生了变化,导致原有的分区分配不再有效。具体触发时机有三类: 1.消费者组成员数量变化 新消费者加入:当一个新的消费者实例加入消费者组时,需要重新分配分区以让新消费者接管部分负载。 消费者主动离开:消费者正常关闭
阅读全文
posted @ 2026-03-24 12:00
鄙人取个名字好难
摘要:1.JDK安装 1.通过 yum -y list java* 搜索JDK版本 2.通过 yum install java-1.8.0-openjdk.x86_64 安装指定版本JDK.安装完成后,可以通过下图方式查询安装目录 3.配置 JAVA_HOME 环境变量 通过 vim /etc/profi
阅读全文
posted @ 2026-03-20 12:25
鄙人取个名字好难
摘要:(一)Hadoop 整体设计 Hadoop 框架是用于计算机集群大数据处理的框架,所以它必须是一个可以部署在多台计算机上的软件。部署了 Hadoop 软件的主机之间通过套接字 (网络) 进行通讯。 Hadoop 主要包含 HDFS 和 MapReduce 两大组件,HDFS 负责分布储存数据,Map
阅读全文
摘要:概览 All HDFS commands are invoked by the bin/hdfs script. Running the hdfs script without any arguments prints the description for all commands. Usage:
阅读全文
posted @ 2026-03-20 12:25
鄙人取个名字好难
摘要:在spring应用中如果需要订阅kafka消息,通常情况下我们不会直接使用kafka-client, 而是使用更方便的一层封装spring-kafka。 在spring-kafka在运行时会启动两类线程,一类是Consumer线程,另一类是Listener线程。前者用来直接调用kafka-clien
阅读全文
posted @ 2021-02-07 01:18
鄙人取个名字好难
摘要:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 Zookeeper的工作机制 Zookeeper
阅读全文
posted @ 2021-02-05 23:09
鄙人取个名字好难
摘要:rollover可以根据索引大小,文档数或使用期限自动过渡到新索引。 当rollover触发后,将创建新索引,写别名(write alias)将更新为指向新索引,所有后续更新都将写入新索引。对于基于时间的rollover来说,基于大小,文档数或使用期限过渡至新索引是比较适合的。 在任意时间rollo
阅读全文
posted @ 2021-01-20 18:16
鄙人取个名字好难
摘要:分布式特性 Elasticsearch 可以横向扩展至数百(甚至数千)的服务器节点,同时可以处理PB级数据。Elasticsearch 天生就是分布式的,并且在设计时屏蔽了分布式的复杂性。这里列举了一些在后台自动执行的操作: 分配文档到不同的容器 或 分片 中,文档可以储存在一个或多个节点中 按集群
阅读全文
posted @ 2021-01-20 07:40
鄙人取个名字好难
摘要:什么是倒排索引 倒排索引(Inverted Index)也叫反向索引,有反向索引必有正向索引。通俗地来讲,正向索引是通过key找value,反向索引则是通过value找key。 当用户在主页上搜索关键词“华为手机”时,假设只存在正向索引(forward index),那么就需要扫描索引库中的所有文档
阅读全文
posted @ 2021-01-18 18:11
鄙人取个名字好难
摘要:IK分词器插件安装 1.安装插件并重启 root@ryj-dev10:/opt/modules# docker container psCONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES592f35773efc kibana:7.10.1 "/
阅读全文
posted @ 2021-01-18 13:48
鄙人取个名字好难
摘要:文本类型 text:当一个字段需要用于全文搜索(会被分词), 比如产品名称、产品描述信息, 就应该使用text类型. keyword:当一个字段需要按照精确值(不会被分词)进行过滤、排序、聚合等操作时, 就应该使用keyword类型. 数字类型 日期类型 date:在ES中, 日期可以是包含格式化日
阅读全文
posted @ 2021-01-17 18:47
鄙人取个名字好难
摘要:接口语法 点击官方API url -X<VERB> '<PROTOCOL>://<HOST>:<PORT>/<PATH>?<QUERY_STRING>' -d '<BODY>' 使用示例 index PUT /<index> You can use the create index API to a
阅读全文
posted @ 2021-01-17 16:54
鄙人取个名字好难
摘要:1.docker拉取kibana镜像 docker pull kibana:7.10.1 2.启动容器 docker run --name kibana -d -p 5601:5601 kibana:7.10.1 此时容器启动成功,但是页面访问 http://IP:5601/ 会提示错误:[Kiba
阅读全文
posted @ 2021-01-16 11:33
鄙人取个名字好难
摘要:ES=elaticsearch简写, Elasticsearch是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是
阅读全文
posted @ 2021-01-04 18:09
鄙人取个名字好难
摘要:传统的文件拷贝 传统的读取文件数据并发送到网络的步骤如下: (1)操作系统将数据从磁盘文件中读取到内核空间的页面缓存; (2)应用程序将数据从内核空间读入用户空间缓冲区; (3)应用程序将读到数据写回内核空间并放入socket缓冲区; (4)操作系统将数据从socket缓冲区复制到网卡接口,此时数据
阅读全文
posted @ 2020-03-23 22:30
鄙人取个名字好难
摘要:producer以及consumer如何知道该去哪个broker传送以及消费数据 producer可以指定一个或者多个broker的信息(ip:port),来获取kafka集群的元信息(最好多指定几个,否则这个broker连接不上了,就over了)。每个broker,topic有多少partitio
阅读全文
posted @ 2020-03-23 21:29
鄙人取个名字好难
摘要:查看kafka版本 进入kafka安装目录 ... kafka/libs,看到类似kafka_2.12-2.0.0.jar这样的文件,2.12为scala版本,2.0.0是kafka版本(kafka使用了Scala进行开发). zookeeper-server-start.sh 参照 kafka环境
阅读全文
posted @ 2020-03-22 21:08
鄙人取个名字好难
摘要:环境准备 JDK + Kafka Kafka配置文件说明 /kafka_2.11-2.4.1/config/zookeeper.properties (zookeeper配置文件,管理kafka的broker) /kafka_2.11-2.4.1/config/server.properties #
阅读全文
posted @ 2018-04-23 15:32
鄙人取个名字好难
摘要:Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统。producers通过网络将消息发送到Kafka集群,集群向消费者提供消息,如下图所示: 客户端和服务端通过TCP协议通信。Kafka提
阅读全文
posted @ 2018-04-10 14:43
鄙人取个名字好难
1

浙公网安备 33010602011771号