2024 年 1月随笔档案 - 粒子先生

trwebocr性能测试

摘要：OCR版本：trwebocr:1.0.4 运行方式： CPU 机器配置：1C， 16G 样本文件：xxxxx.png（原文件）线程组样本平均值（ms）最小值（ms）最大值（ms）标准偏差（ms）异常吞吐量 (sec) 接收KB/sec 发送KB/sec 平均字节数 CPU使用情况线阅读全文

posted @ 2024-01-10 11:10 粒子先生阅读(204) 评论(0) 推荐(0)

GPU环境搭建（TrWebOCR）

摘要：查看显卡信息 lspci | grep -i nvidia 查看系统是否受支持 uname -m http://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#system-requirements 验证是否有编译环境 gc 阅读全文

posted @ 2024-01-10 11:07 粒子先生阅读(326) 评论(0) 推荐(0)

通用搜索架构（转）

摘要：转自：https://ost.51cto.com/posts/11557 回顾自己过去的5年，从一名后端开发工程师，自我摸索、学习、探究，成为一名搜索开发工程师。复盘总结自己经历过的搜索的三个阶段，可简要概括为：（1）关键词搜索、（2）相关性搜索、（3）探索式搜索。具体如下图： • 关键词搜索：主阅读全文

posted @ 2024-01-10 11:03 粒子先生阅读(205) 评论(0) 推荐(0)

Elasticsearch分片大小设定和集群容量规划

摘要：本文以 Elasticsearch 7.9.2 为准。分片大小日志类：单个分片不超过 50G 搜索类：单个分片不超过 20G 先估算总数据量，再根据分片大小，确定分片数。容量规划容量规划时要考虑的因素：机器的软硬件配置单个文档的尺寸，文档总数，索引大小，分片个数，副本个数文档写入方式（阅读全文

posted @ 2024-01-10 10:49 粒子先生阅读(1102) 评论(0) 推荐(0)

ES 的跨索引查询详细讲解（转）

摘要：转自：https://www.jianshu.com/p/b9a07bfb766a 序言 Elasticsearch，中文名直译弹性搜索，不仅仅在单索引内部分片层面弹性搜索，更强的是在跨索引外围支持分片弹性搜索，同比其它分布式数据产品，此特性更鲜明，代表了 Elastic 集群架构设计的优越性。本阅读全文

posted @ 2024-01-10 10:49 粒子先生阅读(722) 评论(0) 推荐(0)

Mysql数据同步至Elasticsearch

摘要：方案对比鉴于Canal是一个基于MySQL二进制日志的高性能数据同步系统， go-mysql-elasticsearch 是一个第三方插件的，虽然都可以同步mysql数据到es，由于es官方文档推荐使用canal工具来同步数据，因此主要将Canal的使用方式提供给用户。核心概念名词解释 my 阅读全文

posted @ 2024-01-10 10:08 粒子先生阅读(1803) 评论(0) 推荐(0)

Logstash全量、增量数据同步

摘要：Logstash-input-jdbc安装 logstash-input-jdbc插件是logstash 的一个个插件,使用ruby语言开发。所以要先安装ruby,也是为了好使用ruby中的gem安装插件，下载地址: https://rubyinstaller.org/downloads/，下载下来阅读全文

posted @ 2024-01-10 09:55 粒子先生阅读(499) 评论(0) 推荐(0)

词库热更新

摘要：作为搜索服务的使用者，我希望系统能够提供基于界面操作的，灵活的自定义热词、停用词、同义词的词典管理功能，便于用户自定义扩展符合自己业务场景的词项，进而提高搜索的准确度。实现方案 elasticsearch-analysis-ik插件改造，使用关系型数据库存储热词、停用词。 elasticsearc 阅读全文

posted @ 2024-01-10 09:40 粒子先生阅读(137) 评论(0) 推荐(0)

自动补全、搜索建议

摘要：作为系统的使用者，我希望用户输入搜索的过程中，系统能进行自动补全和搜索建议，协助用户输入更精准的关键词，提高后续全文搜索阶段文档匹配的准确度。实现方案用户刚开始输入的过程中，使用Completion Suggester进行关键词前缀匹配，刚开始匹配项会比较多，随着用户输入字符增多，匹配项越来越少阅读全文

posted @ 2024-01-10 09:33 粒子先生阅读(160) 评论(0) 推荐(0)

中文、英文、拼音混合搜索

摘要：作为系统的使用者，希望系统提供支持中文搜索、英文搜索、中英混搜、全拼搜索、首字母搜索、中文+全拼、中文+首字母混搜等多种方式混合的高级搜索功能，提高易用性及搜索的全面度及准确度。实现方案组合ik中文分词器与pinyin分词器，自定义支持中文、英文、拼音混合搜索的自定义分析器。调整索引结构，指定阅读全文

posted @ 2024-01-10 09:28 粒子先生阅读(109) 评论(0) 推荐(0)

Hibernate Hbm2ddl.auto=update

摘要：在使用Hibernate的时候我们一般都会配置hibernate.hbm2ddl.auto这个属性，而其中的常见的属性值包括： create create-drop validate update 而在使用的过程中，update是我用的比较多的，由于官方文档对于这个属性产生的效果和使用的范围没有做详阅读全文

posted @ 2024-01-10 08:28 粒子先生阅读(529) 评论(0) 推荐(0)

零代码系统的一些思考

摘要：系统功能架构运行时方案实现方案应用案例基于模型/表单驱动的零代码运行时明道云、简道云基于Serverless云原生的零代码运行时腾讯微搭、阿里云凤蝶、华为AppCube、全象云、即时编译+反射浪潮inStudio 任务列表引擎、开发工具应用管理框架、组件应用市场协作办公阅读全文

posted @ 2024-01-09 16:52 粒子先生阅读(35) 评论(0) 推荐(0)

Activiti7调研

摘要：BPMN2.0规范规范定义了业务流程的符号以及模型，并且为流程定义设定了转换格式，目的是让流程的定义实现可移植性。规范了流程元素的执行语法。定义了流程模型和流程图的扩展机制。细化了事件的组成。扩展了参与者的交互定义。定义了编排模型。 BPMN2.0元素流对象：事件、活动、网关数据：数阅读全文

posted @ 2024-01-09 16:49 粒子先生阅读(91) 评论(0) 推荐(0)

流程引擎设计的一些思考

摘要：技术选型对比维度 Activiti7 Flowable6 Camunda JBPM JFlow 规范 BMPN2.0、XPDL、JPDL BMPN2.0、XPDL、JPDL BMPN2.0、XPDL、JPDL BMPN2.0 BMPN2.0、Ccbpm 成熟度高高高高高使用成本低较阅读全文

posted @ 2024-01-09 16:45 粒子先生阅读(102) 评论(0) 推荐(0)

表单引擎设计的一些思考

摘要：作为开发平台的使用者，希望开发平台提供一款拖拽式的表单设计引擎，支持图形化设计，表单动态渲染，列表页面动态展示，业务数据动态处理的功能，以便帮助团队可以零代码开发业务表单。表单引擎主要包括4个功能模块，表单设计器、表单解析器、协议管理、数据存储，其中表单设计器与解析器为前端模块，负责表单的创建以及阅读全文

posted @ 2024-01-09 16:40 粒子先生阅读(524) 评论(0) 推荐(0)

Nginx安装

摘要：安装依赖包 yum install gcc gcc-* automake autoconf libtool make zlib zlib-devel glibc-* tcl pcre-devel openssl openssl-devel -y 下载安装包，解压编译 ./configure --pr 阅读全文

posted @ 2024-01-09 15:48 粒子先生阅读(18) 评论(0) 推荐(0)

大数据组件常见端口汇总

摘要：Hadoop:50070：HDFS WEB UI端口8020 ：高可用的HDFS RPC端口9000 ：非高可用的HDFS RPC端口8088 ： Yarn 的WEB UI 接口8485 ： JournalNode 的RPC端口8019 ： ZKFC端口19888：jobhistory WEB 阅读全文

posted @ 2024-01-09 11:20 粒子先生阅读(55) 评论(0) 推荐(0)

各种开源协议介绍（转）

摘要：转自：https://zhuanlan.zhihu.com/p/438889900?utm_id=0 世界上的开源许可证（Open Source License）大概有上百种，今天我们来介绍下几种我们常见的开源协议。大致有GPL、BSD、MIT、Mozilla、Apache和LGPL等。 Apach 阅读全文

posted @ 2024-01-09 11:18 粒子先生阅读(92) 评论(0) 推荐(0)

Flink Metaspace OOM问题排查

摘要：错误日志 org.apache.flink.runtime.rest.handler.RestHandlerException: Could not execute application. at org.apache.flink.runtime.webmonitor.handlers.JarRun 阅读全文

posted @ 2024-01-09 11:17 粒子先生阅读(414) 评论(0) 推荐(0)

安装HUE并配置连接Hive&Flink&TIDB

摘要：安装依赖包 yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel mak 阅读全文

posted @ 2024-01-09 11:00 粒子先生阅读(353) 评论(0) 推荐(0)

Flink Sql线上环境踩坑记录

摘要：背景：Flink Sql程序本机测试执行没问题，上到生产环境就报各种诡异得问题，搞得头都大了。。。特此记录下解决过程。问题原因主要两点： 1.JDK版本问题 2.Flink Sql相关jar包冲突问题一 2020-09-27 06:06:33,125 INFO org.apache.flink. 阅读全文

posted @ 2024-01-09 09:47 粒子先生阅读(454) 评论(0) 推荐(0)

Flink SQL建表语句示例

摘要：Hive CREATE EXTERNAL TABLE jc.judgmentDocumentods( odsId STRING, caseTitle STRING, plaintiff STRING, caseTypeShow INT, releaseDate STRING, caseSource 阅读全文

posted @ 2024-01-09 09:38 粒子先生阅读(101) 评论(0) 推荐(0)

Flink Sql On Hive

摘要：TableEnvironment // ********************** // FLINK STREAMING QUERY // ********************** import org.apache.flink.streaming.api.environment.Stream 阅读全文

posted @ 2024-01-09 09:31 粒子先生阅读(48) 评论(0) 推荐(0)

星型模型&雪花模型

摘要：数据集市（Data Mart）也有称ADS（Application Data Store），数据集市将主题层和基础层的数据按照各业务的实际需求进行聚合，形成宽表或数据立方体（Cube），可直接供业务部门和数据分析团队使用。数据集市中主要存在的是事实表（fact）和维度表（dimension）。事阅读全文

posted @ 2024-01-09 08:41 粒子先生阅读(211) 评论(0) 推荐(0)

Parquet格式文件读写&合并小文件

摘要：Parquet格式文件读写依赖工具parquet-tools： parquet-tools-1.6.0rc3-SNAPSHOT.jar 查看结构： java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d pane-0-00000-of-000 阅读全文

posted @ 2024-01-09 08:35 粒子先生阅读(787) 评论(0) 推荐(0)

Hive文件存储格式

摘要：结论： Text File，Parquet ，ORC Files结合使用，优先使用前两种，对存储及查询性能有极高要求时使用ORC。存储格式使用场景 Text File 数据直观，便于查看和编辑，数据量较小的维表可以使用. Parquet 支持深度嵌套，可用于多种数据处理框架（Hive/Spark 阅读全文

posted @ 2024-01-08 17:07 粒子先生阅读(141) 评论(0) 推荐(0)

Hive 数据写入流程

摘要：概念简介外部表：删除表时，外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景，便于数据共享。内部表：删除表时，内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。分区表：数据较多，为提高计算速度时使用。内部表&外部表写入流程图具体流程Demo 以外部表为例：阅读全文

posted @ 2024-01-08 17:01 粒子先生阅读(187) 评论(0) 推荐(0)

Hive 复杂数据类型Array，Map，Struct

摘要：建表语句，支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p 阅读全文

posted @ 2024-01-08 16:55 粒子先生阅读(122) 评论(0) 推荐(0)

hive分区表数据导入

摘要：数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间，主要包括两种分区形式：水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区，一般是通过对表的垂直划分来减少目标表的宽度，常用的是水平分区. 1. hive建立分区表 create external ta 阅读全文

posted @ 2024-01-08 16:53 粒子先生阅读(557) 评论(0) 推荐(0)

Hive写入JSON数据

摘要：优缺点： 1.JsonSerDe对json数据格式有严格要求，创建的表结果必须与json结构能对应上，否则会报错。配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。必须定义好详细字段嵌套的规则类型，不适合提取ODS原文。 2.g 阅读全文

posted @ 2024-01-08 16:48 粒子先生阅读(499) 评论(0) 推荐(0)

Hive Array数据处理

摘要：建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE 阅读全文

posted @ 2024-01-08 16:45 粒子先生阅读(62) 评论(0) 推荐(0)

Flink写文件

摘要：简介 StreamingFileSink 提供了将数据分桶写入文件系统的功能。如何分桶是可以配置，默认使用基于时间的分桶策略，每个小时创建一个新的桶，也可以自定义分桶策略。文件滚动策略支持两种方式，基于时间和文件大小的DefaultRollingPolicy策略和基于Flink检查点的OnChe 阅读全文

posted @ 2024-01-08 16:36 粒子先生阅读(523) 评论(0) 推荐(0)

安装HUE并配置连接Hive&Flink&TIDB

摘要：创建用户 groupadd hadoop useradd -g hadoop hadoop 解压编译 wget https://cdn.gethue.com/downloads/hue-4.8.0.tgz PREFIX=/usr/share make install 集成Hive Conf 在/op 阅读全文

posted @ 2024-01-08 16:14 粒子先生阅读(248) 评论(0) 推荐(0)

HUE中执行Flink SQL

摘要：要解决的问题解决HUE操作大数据量Hive表时，执行报错的问题。为开发人员或数据管理人员提供一个便捷的Flink SQL交互式查询工具，简化SQL验证的流程，进而提高工作效率。功能介绍 Flink SQL 读写Kafka Flink SQL 读写HDFS Flink SQL 关联 Flink 阅读全文

posted @ 2024-01-08 16:04 粒子先生阅读(231) 评论(0) 推荐(0)

任务调度XXL-JOB

摘要：编译部署 1.从github下载源码 https://github.com/xuxueli/xxl-job git clone https://github.com/xuxueli/xxl-job.git 2.切换版本，修改配置文件 ####调度中心配置文件路径 xxl-job-admin/src/ 阅读全文

posted @ 2024-01-08 15:31 粒子先生阅读(79) 评论(0) 推荐(0)

推荐系统之标签体系（转载）

摘要：转载：https://zhuanlan.zhihu.com/p/103129589?utm_source=wechat_session 为什么要先介绍标签体系？一个推荐系统效果好与坏最基本的保障、最基础的是什么？如果让我来回答，一定是标签体系。我这里说的标签主要是针对物料的，对于电商平台来说就是商阅读全文

posted @ 2024-01-08 15:25 粒子先生阅读(317) 评论(0) 推荐(0)

User-defined Sources & Sinks

摘要：Dynamic tables are the core concept of Flink’s Table & SQL API for processing both bounded and unbounded data in a unified fashion. Because dynamic ta 阅读全文

posted @ 2024-01-08 15:22 粒子先生阅读(120) 评论(0) 推荐(0)

DataX试用Mongo→Hdfs&Hdfs→Mongo

摘要：安装下载安装包 wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 解压即可配置生成模板 python ./datax.py -r hdfsreader -w mongodbwriter python . 阅读全文

posted @ 2024-01-08 15:17 粒子先生阅读(138) 评论(0) 推荐(0)

Apache Beam 旁路输入（Side inputs）

摘要：一、介绍除了主输入PCollection之外，还可以以旁路输入（side inputs）的形式向ParDo转换提供额外的输入。旁路输入是一个额外的输入，DoFn每次处理input PCollection中的一个元素时都可以访问它。当您指定一个side inputs时，您将创建一些其他数据的视图（P 阅读全文

posted @ 2024-01-08 15:11 粒子先生阅读(81) 评论(0) 推荐(0)

数据治理9大核心领域（转）

摘要：转自：https://blog.csdn.net/xiyuzhanshen123/article/details/96484520 数据治理不仅需要完善的保障机制，还需要理解具体的治理内容，比如我们的数据该怎么进行规范，元数据又该怎么来管理，每个过程需要哪些系统或者工具来进行配合呢？这些问题都是数据阅读全文

posted @ 2024-01-08 15:08 粒子先生阅读(871) 评论(0) 推荐(0)

元数据管理系统

摘要：产品背景市场分析元数据管理是数据治理的基础，企业以元数据为基础进行数据治理，能帮助企业更好地对数据资产进行管理，理清数据之间的关系，实现精准高效的分析和决策。就国内而言，目前完备成熟的元数据产品较少，市场正处于上升期，是抢占市场份额的好时机。用户痛点随着大数据技术的发展和日渐成熟，如何进行海阅读全文

posted @ 2024-01-08 14:31 粒子先生阅读(172) 评论(0) 推荐(0)

大数据治理技术核心，可扩展的元数据架构设计（转）

摘要：转自：https://blog.csdn.net/weixin_45727359/article/details/127662364 元数据管理是随着数据仓库的建设逐渐完善起来的，这也决定了元数据管理主要集中在数据领域。例如数据结构、数据加工转换关系等。而随着我们对元数据理解的不断深入，其实元数据广阅读全文

posted @ 2024-01-08 14:25 粒子先生阅读(246) 评论(0) 推荐(0)

公共仓库元模型(CWM)（转）

摘要：转自：https://www.jianshu.com/p/21207b50084a 一、什么是CWM？在我们学习一个新东西时，首先得弄懂明白它是用来干什么的？然后通过实例与理论交错学习，CWM——Common Warehouse Metamodel, 很明显翻译过来时公共仓库元模型，CWM的提出主阅读全文

posted @ 2024-01-08 14:23 粒子先生阅读(851) 评论(0) 推荐(0)

数据治理之元数据管理（转）

摘要：转自：https://blog.csdn.net/jiangzhenbo/article/details/85255240 这篇文章主要讲数据治理的基础和核心之一：元数据。从关于元数据的三个概念谈起，讲到元数据的分布范围和如何获取元数据，最后从几个常见的应用出发，谈谈元数据的一些实际应用场景。一、阅读全文

posted @ 2024-01-08 14:21 粒子先生阅读(162) 评论(0) 推荐(0)

元数据管理功能列表

摘要：1. 数据地图数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现，并通过不同层次的图形展现粒度控制，满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。 2. 元数据分析血缘分析血缘分析（也称血统分析）是指从某一实体出发，往回追溯其处理过程阅读全文

posted @ 2024-01-08 14:18 粒子先生阅读(108) 评论(0) 推荐(0)

元数据分类

摘要：•技术元数据：存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等•业务元数据：业务定义、业务术语、业务规则、业务指标等•管理元数据：数据所有者、数据质量定责、数据安全等级等。描述数据的数据数据业务元数据(描述数据定义的数据) 1. 企业数据标准; 阅读全文

posted @ 2024-01-08 14:17 粒子先生阅读(130) 评论(0) 推荐(0)

元数据与数据治理的关系图

摘要：一、数据治理中的核心元素——元数据元数据（metadata）是关于数据的组织、数据域及其关系的信息，简单来说，元数据就是被用来描述数据的数据。数据治理的前提是要有数据，并且要求数据类型全、量大，并尽可能的覆盖数据流转的各个环节，而元数据是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知阅读全文

posted @ 2024-01-08 14:12 粒子先生阅读(243) 评论(0) 推荐(0)

MOF (Meta Object Facility) 规范（转）

摘要：一、MOF的定义 MOF (Meta Object Facility) 称为元对象设施或者元对象机制，是OMG 组织为了帮助销售商、开发者和用户更好的使用元模型和元数据技术而制定的。 MOF最初是OMG( Object Management Group, 对象管理组织) 在1996年一个征求建议书( 阅读全文

posted @ 2024-01-08 14:10 粒子先生阅读(975) 评论(0) 推荐(0)

Atlas关系型数据库元数据模型

摘要：[ { "category": "ENTITY", "guid": "00b4a314-1185-4cd4-84e9-20275990d58d", "createdBy": "hadoop", "updatedBy": "hadoop", "createTime": 1615973091411, " 阅读全文

posted @ 2024-01-08 13:41 粒子先生阅读(41) 评论(0) 推荐(0)

Atlas类型系统

摘要：预定义系统类型 Atlas自带了一些预定义的系统类型。我们在前面的部分中看到了一个示例（DataSet）。在本节中，我们将看到更多这些类型并了解它们的重要性。 Referenceable：该类型表示可以使用名为qualifiedName的唯一属性搜索的所有实体。 { "category": "ENT 阅读全文

posted @ 2024-01-08 13:40 粒子先生阅读(179) 评论(0) 推荐(0)

Atlas集成Sqoop

摘要：注册hook 编辑sqoop‐site.xml,添加如下配置 <property> <name>sqoop.job.data.publish.class</name> <value>org.apache.atlas.sqoop.hook.SqoopHook</value> </property> 引阅读全文

posted @ 2024-01-08 13:33 粒子先生阅读(55) 评论(0) 推荐(0)

Atlas集成Hive

摘要：修改atlas-application.properties 添加atlas.hook.hive.synchronous=false atlas.hook.hive.numRetries=3 atlas.hook.hive.queueSize=10000 atlas.cluster.name=pri 阅读全文

posted @ 2024-01-08 13:32 粒子先生阅读(126) 评论(0) 推荐(0)

Atlas初步调研

摘要：简介 Atlas是Hadoop生态的元数据管理框架，有以下功能特性：元数据类型：支持多种Hadoop和非Hadoop元数据的预定义类型，提供元数据定义新类型的能力，类型可以具有原始属性、复杂属性、对象引用，可以从其他类型继承。分类：提供动态创建分类的能力，元数据实体可以与多个分类相关联，具有分类阅读全文

posted @ 2024-01-08 13:29 粒子先生阅读(52) 评论(0) 推荐(0)

聚合查询越来越慢？——详解Elasticsearch的Global Ordinals与High Cardinality

摘要：转自：https://blog.csdn.net/zwgdft/article/details/83215977 Elasticsearch中的概念很多，本文将从笔者在实践过程中遇到的问题出发，逐步详细介绍 Global Ordinals 和 High Cardinality ，这也是笔者的认知过程阅读全文

posted @ 2024-01-08 13:24 粒子先生阅读(531) 评论(0) 推荐(1)

Elasticsearch底层系列之Shard Allocation机制（转）

摘要：转自：https://cloud.tencent.com/developer/article/1361266 背景 Elasticsearch由一些Elasticsearch进程(Node)组成集群，用来存放索引(Index)。为了存放数据量很大的索引，Elasticsearch将Index切分成多阅读全文

posted @ 2024-01-08 13:23 粒子先生阅读(376) 评论(0) 推荐(0)

Elasticsearch存储目录结构深入详解

摘要：在本文中，我们将研究Elasticsearch的各个部分写入数据目录的文件。我们将查看节点，索引和分片级文件，并简要说明其内容，以便了解Elasticsearch写入磁盘的数据。 1、从Elasticsearch路径说起 Elasticsearch配置了多个路径： path.home：运行Elast 阅读全文

posted @ 2024-01-08 13:23 粒子先生阅读(1882) 评论(0) 推荐(0)

hbase java api demo

摘要：pom.xml <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.3.1</version> </dependency> HbaseUtil.java p 阅读全文

posted @ 2024-01-08 13:21 粒子先生阅读(33) 评论(0) 推荐(0)

Day1 - 大规模Elasticsearch集群管理心得（转）

摘要：转自：https://elasticsearch.cn/article/110 【携程旅行网吴晓刚】 ElasticSearch目前在互联网公司主要用于两种应用场景，其一是用于构建业务的搜索功能模块且多是垂直领域的搜索，数据量级一般在千万至数十亿这个级别；其二用于大规模数据的实时OLAP，经典的如阅读全文

posted @ 2024-01-08 13:19 粒子先生阅读(94) 评论(0) 推荐(0)

Es官方文档整理-3.Doc Values和FieldData（转）

摘要：转自：https://www.cnblogs.com/ydxblog/p/8304297.html 1.Doc Values 聚合使用一个叫Doc Values的数据结构。Doc Values使聚合更快、更高效且内存友好。 Doc Values的存在是因为倒排索引只对某些操作是高效的。倒排索引的优势阅读全文

posted @ 2024-01-08 13:18 粒子先生阅读(567) 评论(0) 推荐(0)

Elasticsearch7.X Scripting脚本使用详解（转）

摘要：转自：https://cloud.tencent.com/developer/article/1507715 0、题记除了官方文档，其他能找到的介绍Elasticsearch脚本（Scripting）的资料少之又少。一方面：性能问题。官方文档性能优化中明确指出使用脚本会导致性能低；另一方面：阅读全文

posted @ 2024-01-08 13:18 粒子先生阅读(207) 评论(0) 推荐(0)

screen命令

摘要：创建会话（-m 强制）： screen -dmS session_name 关闭会话： screen -X -S [session # you want to kill] quit 查看所有会话： screen -ls 进入会话： screen -r session_name https://man 阅读全文

posted @ 2024-01-08 13:17 粒子先生阅读(51) 评论(0) 推荐(0)

设计模式（转载）

摘要：转自： https://www.cnblogs.com/wxisme/category/687215.html 阅读全文

posted @ 2024-01-08 13:15 粒子先生阅读(10) 评论(0) 推荐(0)

PostgreSQL安装

摘要：下载安装 yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm yum install -y postgresql12- 阅读全文

posted @ 2024-01-08 13:12 粒子先生阅读(34) 评论(0) 推荐(0)

Running Spark on YARN

摘要：Support for running on YARN (Hadoop NextGen) was added to Spark in version 0.6.0, and improved in subsequent releases. spark自0.60版本开始支持在YARN上运行，并在后续版本阅读全文

posted @ 2024-01-08 13:09 粒子先生阅读(69) 评论(0) 推荐(0)

Atlas内嵌安装

摘要：安装jdk yum install java-1.8.0-openjdk* -y #配置环境变量 export JAVA_HOME=/usr/lib/jvm/java export PATH=$PATH:$JAVA_HOME/bin 安装maven curl -o /etc/yum.repos.d/ 阅读全文

posted @ 2024-01-05 10:41 粒子先生阅读(27) 评论(0) 推荐(0)

Atlas Rest API

摘要：Atlas Rest API总结部分Rest API，其他API查看Atlas官网Atlas Rest API AdminREST查看Atlas Metadata Server节点状态 GET /admin/statuscurl -s -u admin:admin "http://node2:210 阅读全文

posted @ 2024-01-05 10:39 粒子先生阅读(129) 评论(0) 推荐(0)

Geoserver+Geomesa+HBase环境搭建

摘要：版本 zookeeper-3.5.10 hadoop-2.8.5 hbase-2.2.4 geomesa-hbase_2.11-3.1.1 geoserver-2.17.1 安装HBase zoo.cfg tickTime=2000 initLimit=10 syncLimit=5 clientPo 阅读全文

posted @ 2024-01-04 17:10 粒子先生阅读(430) 评论(0) 推荐(0)

UML中类之间的六大关系

摘要：理解六大关系中在代码中的体现，就可以轻松的阅读设计模式一、泛化关系（Generalization）说明：这种关系就是面向对象语言中的继承关系，逻辑上可以用"is a"表示。代码体现：子类继承父类。 UML符号：一条实线+空心箭头。图示：二、实现关系（Realization）说明：和泛化关阅读全文

posted @ 2024-01-04 17:06 粒子先生阅读(339) 评论(0) 推荐(0)

AI晓

01 2024 档案

公告