01 2024 档案
摘要:OCR版本:trwebocr:1.0.4 运行方式: CPU 机器配置:1C, 16G 样本文件:xxxxx.png(原文件) 线程组 样本 平均值(ms) 最小值(ms) 最大值(ms) 标准偏差(ms) 异常 吞吐量 (sec) 接收KB/sec 发送KB/sec 平均字节数 CPU使用情况 线
阅读全文
摘要:查看显卡信息 lspci | grep -i nvidia 查看系统是否受支持 uname -m http://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#system-requirements 验证是否有编译环境 gc
阅读全文
摘要:转自:https://ost.51cto.com/posts/11557 回顾自己过去的5年,从一名后端开发工程师,自我摸索、学习、探究,成为一名搜索开发工程师。复盘总结自己经历过的搜索的三个阶段,可简要概括为:(1)关键词搜索、(2)相关性搜索、(3)探索式搜索。 具体如下图: • 关键词搜索:主
阅读全文
摘要:本文以 Elasticsearch 7.9.2 为准。 分片大小 日志类:单个分片不超过 50G 搜索类:单个分片不超过 20G 先估算总数据量,再根据分片大小,确定分片数。 容量规划 容量规划时要考虑的因素: 机器的软硬件配置 单个文档的尺寸,文档总数,索引大小,分片个数,副本个数 文档写入方式(
阅读全文
摘要:转自:https://www.jianshu.com/p/b9a07bfb766a 序言 Elasticsearch,中文名直译弹性搜索,不仅仅在单索引内部分片层面弹性搜索,更强的是在跨索引外围支持分片弹性搜索,同比其它分布式数据产品,此特性更鲜明,代表了 Elastic 集群架构设计的优越性。 本
阅读全文
摘要:方案对比 鉴于Canal是一个基于MySQL二进制日志的高性能数据同步系统, go-mysql-elasticsearch 是一个第三方插件的,虽然都可以同步mysql数据到es,由于es官方文档推荐使用canal工具来同步数据,因此主要将Canal的使用方式提供给用户。 核心概念 名词 解释 my
阅读全文
摘要:Logstash-input-jdbc安装 logstash-input-jdbc插件是logstash 的一个个插件,使用ruby语言开发。所以要先安装ruby,也是为了好使用ruby中的gem安装插件,下载地址: https://rubyinstaller.org/downloads/,下载下来
阅读全文
摘要:作为搜索服务的使用者,我希望系统能够提供基于界面操作的,灵活的自定义热词、停用词、同义词的词典管理功能,便于用户自定义扩展符合自己业务场景的词项,进而提高搜索的准确度。 实现方案 elasticsearch-analysis-ik插件改造,使用关系型数据库存储热词、停用词。 elasticsearc
阅读全文
摘要:作为系统的使用者,我希望用户输入搜索的过程中,系统能进行自动补全和搜索建议,协助用户输入更精准的关键词,提高后续全文搜索阶段文档匹配的准确度。 实现方案 用户刚开始输入的过程中,使用Completion Suggester进行关键词前缀匹配,刚开始匹配项会比较多,随着用户输入字符增多,匹配项越来越少
阅读全文
摘要:作为系统的使用者,希望系统提供支持中文搜索、英文搜索、中英混搜、全拼搜索、首字母搜索、中文+全拼、中文+首字母混搜等多种方式混合的高级搜索功能,提高易用性及搜索的全面度及准确度。 实现方案 组合ik中文分词器与pinyin分词器,自定义支持中文、英文、拼音混合搜索的自定义分析器。 调整索引结构,指定
阅读全文
摘要:在使用Hibernate的时候我们一般都会配置hibernate.hbm2ddl.auto这个属性,而其中的常见的属性值包括: create create-drop validate update 而在使用的过程中,update是我用的比较多的,由于官方文档对于这个属性产生的效果和使用的范围没有做详
阅读全文
摘要:系统功能架构 运行时方案 实现方案 应用案例 基于模型/表单驱动的零代码运行时 明道云、简道云 基于Serverless云原生的零代码运行时 腾讯微搭、阿里云凤蝶、华为AppCube、全象云、 即时编译+反射 浪潮inStudio 任务列表 引擎、开发工具 应用管理 框架、组件 应用市场 协作办公
阅读全文
摘要:BPMN2.0规范 规范定义了业务流程的符号以及模型,并且为流程定义设定了转换格式,目的是让流程的定义实现可移植性。 规范了流程元素的执行语法。 定义了流程模型和流程图的扩展机制。 细化了事件的组成。 扩展了参与者的交互定义。 定义了编排模型。 BPMN2.0元素 流对象:事件、活动、网关 数据:数
阅读全文
摘要:技术选型 对比维度 Activiti7 Flowable6 Camunda JBPM JFlow 规范 BMPN2.0、XPDL、JPDL BMPN2.0、XPDL、JPDL BMPN2.0、XPDL、JPDL BMPN2.0 BMPN2.0、Ccbpm 成熟度 高 高 高 高 高 使用成本 低 较
阅读全文
摘要:作为开发平台的使用者,希望开发平台提供一款拖拽式的表单设计引擎,支持图形化设计,表单动态渲染,列表页面动态展示,业务数据动态处理的功能,以便帮助团队可以零代码开发业务表单。 表单引擎主要包括4个功能模块,表单设计器、表单解析器、协议管理、数据存储,其中表单设计器与解析器为前端模块,负责表单的创建以及
阅读全文
摘要:安装依赖包 yum install gcc gcc-* automake autoconf libtool make zlib zlib-devel glibc-* tcl pcre-devel openssl openssl-devel -y 下载安装包,解压编译 ./configure --pr
阅读全文
摘要:Hadoop:50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口8019 : ZKFC端口19888:jobhistory WEB
阅读全文
摘要:转自:https://zhuanlan.zhihu.com/p/438889900?utm_id=0 世界上的开源许可证(Open Source License)大概有上百种,今天我们来介绍下几种我们常见的开源协议。大致有GPL、BSD、MIT、Mozilla、Apache和LGPL等。 Apach
阅读全文
摘要:错误日志 org.apache.flink.runtime.rest.handler.RestHandlerException: Could not execute application. at org.apache.flink.runtime.webmonitor.handlers.JarRun
阅读全文
摘要:安装依赖包 yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel mak
阅读全文
摘要:背景:Flink Sql程序本机测试执行没问题,上到生产环境就报各种诡异得问题,搞得头都大了。。。特此记录下解决过程。 问题原因主要两点: 1.JDK版本问题 2.Flink Sql相关jar包冲突 问题一 2020-09-27 06:06:33,125 INFO org.apache.flink.
阅读全文
摘要:Hive CREATE EXTERNAL TABLE jc.judgmentDocumentods( odsId STRING, caseTitle STRING, plaintiff STRING, caseTypeShow INT, releaseDate STRING, caseSource
阅读全文
摘要:TableEnvironment // ********************** // FLINK STREAMING QUERY // ********************** import org.apache.flink.streaming.api.environment.Stream
阅读全文
摘要:数据集市(Data Mart)也有称ADS(Application Data Store),数据集市将主题层和基础层的数据按照各业务的实际需求进行聚合,形成宽表或数据立方体(Cube),可直接供业务部门和数据分析团队使用。 数据集市中主要存在的是事实表(fact)和维度表(dimension)。 事
阅读全文
摘要:Parquet格式文件读写 依赖工具parquet-tools: parquet-tools-1.6.0rc3-SNAPSHOT.jar 查看结构: java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d pane-0-00000-of-000
阅读全文
摘要:结论: Text File,Parquet ,ORC Files结合使用,优先使用前两种,对存储及查询性能有极高要求时使用ORC。 存储格式 使用场景 Text File 数据直观,便于查看和编辑,数据量较小的维表可以使用. Parquet 支持深度嵌套,可用于多种数据处理框架(Hive/Spark
阅读全文
摘要:概念简介 外部表:删除表时,外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景,便于数据共享。 内部表:删除表时,内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。 分区表:数据较多,为提高计算速度时使用。 内部表&外部表写入流程图 具体流程Demo 以外部表为例:
阅读全文
摘要:建表语句,支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p
阅读全文
摘要:数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表的垂直划分来减少目标表的宽度,常用的是水平分区. 1. hive建立分区表 create external ta
阅读全文
摘要:优缺点: 1.JsonSerDe对json数据格式有严格要求,创建的表结果必须与json结构能对应上,否则会报错。 配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。 必须定义好详细字段嵌套的规则类型,不适合提取ODS原文。 2.g
阅读全文
摘要:建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE
阅读全文
摘要:简介 StreamingFileSink 提供了将数据分桶写入文件系统的功能。 如何分桶是可以配置,默认使用基于时间的分桶策略,每个小时创建一个新的桶,也可以自定义分桶策略。 文件滚动策略支持两种方式,基于时间和文件大小的DefaultRollingPolicy策略和基于Flink检查点的OnChe
阅读全文
摘要:创建用户 groupadd hadoop useradd -g hadoop hadoop 解压编译 wget https://cdn.gethue.com/downloads/hue-4.8.0.tgz PREFIX=/usr/share make install 集成Hive Conf 在/op
阅读全文
摘要:要解决的问题 解决HUE操作大数据量Hive表时,执行报错的问题。 为开发人员或数据管理人员提供一个便捷的Flink SQL交互式查询工具,简化SQL验证的流程,进而提高工作效率。 功能介绍 Flink SQL 读写Kafka Flink SQL 读写HDFS Flink SQL 关联 Flink
阅读全文
摘要:编译部署 1.从github下载源码 https://github.com/xuxueli/xxl-job git clone https://github.com/xuxueli/xxl-job.git 2.切换版本,修改配置文件 ####调度中心配置文件路径 xxl-job-admin/src/
阅读全文
摘要:转载:https://zhuanlan.zhihu.com/p/103129589?utm_source=wechat_session 为什么要先介绍标签体系? 一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商
阅读全文
摘要:Dynamic tables are the core concept of Flink’s Table & SQL API for processing both bounded and unbounded data in a unified fashion. Because dynamic ta
阅读全文
摘要:安装 下载安装包 wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 解压即可 配置 生成模板 python ./datax.py -r hdfsreader -w mongodbwriter python .
阅读全文
摘要:一、介绍 除了主输入PCollection之外,还可以以旁路输入(side inputs)的形式向ParDo转换提供额外的输入。旁路输入是一个额外的输入,DoFn每次处理input PCollection中的一个元素时都可以访问它。当您指定一个side inputs时,您将创建一些其他数据的视图(P
阅读全文
摘要:转自:https://blog.csdn.net/xiyuzhanshen123/article/details/96484520 数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如我们的数据该怎么进行规范,元数据又该怎么来管理,每个过程需要哪些系统或者工具来进行配合呢?这些问题都是数据
阅读全文
摘要:产品背景 市场分析 元数据管理是数据治理的基础,企业以元数据为基础进行数据治理,能帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。就国内而言,目前完备成熟的元数据产品较少,市场正处于上升期,是抢占市场份额的好时机。 用户痛点 随着大数据技术的发展和日渐成熟,如何进行海
阅读全文
摘要:转自:https://blog.csdn.net/weixin_45727359/article/details/127662364 元数据管理是随着数据仓库的建设逐渐完善起来的,这也决定了元数据管理主要集中在数据领域。例如数据结构、数据加工转换关系等。而随着我们对元数据理解的不断深入,其实元数据广
阅读全文
摘要:转自:https://www.jianshu.com/p/21207b50084a 一、什么是CWM? 在我们学习一个新东西时,首先得弄懂明白它是用来干什么的?然后通过实例与理论交错学习,CWM——Common Warehouse Metamodel, 很明显翻译过来时公共仓库元模型,CWM的提出主
阅读全文
摘要:转自:https://blog.csdn.net/jiangzhenbo/article/details/85255240 这篇文章主要讲数据治理的基础和核心之一:元数据。从关于元数据的三个概念谈起,讲到元数据的分布范围和如何获取元数据,最后从几个常见的应用出发,谈谈元数据的一些实际应用场景。 一、
阅读全文
摘要:1. 数据地图 数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。 2. 元数据分析 血缘分析 血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程
阅读全文
摘要:•技术元数据:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、 接口程序、数据关系等•业务元数据:业务定义、业务术语、 业务规则、业务指标等•管理元数据:数据所有者、数据质量定责、数据安全等级等。 描述数据的数据 数据 业务元数据(描述数据定义的数据) 1. 企业数据标准;
阅读全文
摘要:一、数据治理中的核心元素——元数据 元数据(metadata)是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。 数据治理的前提是要有数据,并且要求数据类型全、量大,并尽可能的覆盖数据流转的各个环节,而元数据是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知
阅读全文
摘要:一、MOF的定义 MOF (Meta Object Facility) 称为元对象设施或者元对象机制,是OMG 组织为了帮助销售商、开发者和用户更好的使用元模型和元数据技术而制定的。 MOF最初是OMG( Object Management Group, 对象管理组织) 在1996年一个征求建议书(
阅读全文
摘要:[ { "category": "ENTITY", "guid": "00b4a314-1185-4cd4-84e9-20275990d58d", "createdBy": "hadoop", "updatedBy": "hadoop", "createTime": 1615973091411, "
阅读全文
摘要:预定义系统类型 Atlas自带了一些预定义的系统类型。我们在前面的部分中看到了一个示例(DataSet)。在本节中,我们将看到更多这些类型并了解它们的重要性。 Referenceable:该类型表示可以使用名为qualifiedName的唯一属性搜索的所有实体。 { "category": "ENT
阅读全文
摘要:注册hook 编辑sqoop‐site.xml,添加如下配置 <property> <name>sqoop.job.data.publish.class</name> <value>org.apache.atlas.sqoop.hook.SqoopHook</value> </property> 引
阅读全文
摘要:修改atlas-application.properties 添加atlas.hook.hive.synchronous=false atlas.hook.hive.numRetries=3 atlas.hook.hive.queueSize=10000 atlas.cluster.name=pri
阅读全文
摘要:简介 Atlas是Hadoop生态的元数据管理框架,有以下功能特性: 元数据类型:支持多种Hadoop和非Hadoop元数据的预定义类型,提供元数据定义新类型的能力,类型可以具有原始属性、复杂属性、对象引用,可以从其他类型继承。 分类:提供动态创建分类的能力,元数据实体可以与多个分类相关联,具有分类
阅读全文
摘要:转自:https://blog.csdn.net/zwgdft/article/details/83215977 Elasticsearch中的概念很多,本文将从笔者在实践过程中遇到的问题出发,逐步详细介绍 Global Ordinals 和 High Cardinality ,这也是笔者的认知过程
阅读全文
摘要:转自:https://cloud.tencent.com/developer/article/1361266 背景 Elasticsearch由一些Elasticsearch进程(Node)组成集群,用来存放索引(Index)。为了存放数据量很大的索引,Elasticsearch将Index切分成多
阅读全文
摘要:在本文中,我们将研究Elasticsearch的各个部分写入数据目录的文件。我们将查看节点,索引和分片级文件,并简要说明其内容,以便了解Elasticsearch写入磁盘的数据。 1、从Elasticsearch路径说起 Elasticsearch配置了多个路径: path.home:运行Elast
阅读全文
摘要:pom.xml <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.3.1</version> </dependency> HbaseUtil.java p
阅读全文
摘要:转自:https://elasticsearch.cn/article/110 【携程旅行网 吴晓刚】 ElasticSearch目前在互联网公司主要用于两种应用场景,其一是用于构建业务的搜索功能模块且多是垂直领域的搜索,数据量级一般在千万至数十亿这个级别;其二用于大规模数据的实时OLAP,经典的如
阅读全文
摘要:转自:https://www.cnblogs.com/ydxblog/p/8304297.html 1.Doc Values 聚合使用一个叫Doc Values的数据结构。Doc Values使聚合更快、更高效且内存友好。 Doc Values的存在是因为倒排索引只对某些操作是高效的。倒排索引的优势
阅读全文
摘要:转自:https://cloud.tencent.com/developer/article/1507715 0、题记 除了官方文档,其他能找到的介绍Elasticsearch脚本(Scripting)的资料少之又少。 一方面:性能问题。 官方文档性能优化中明确指出使用脚本会导致性能低; 另一方面:
阅读全文
摘要:创建会话(-m 强制): screen -dmS session_name 关闭会话: screen -X -S [session # you want to kill] quit 查看所有会话: screen -ls 进入会话: screen -r session_name https://man
阅读全文
摘要:转自: https://www.cnblogs.com/wxisme/category/687215.html
阅读全文
摘要:下载安装 yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm yum install -y postgresql12-
阅读全文
摘要:Support for running on YARN (Hadoop NextGen) was added to Spark in version 0.6.0, and improved in subsequent releases. spark自0.60版本开始支持在YARN上运行,并在后续版本
阅读全文
摘要:安装jdk yum install java-1.8.0-openjdk* -y #配置环境变量 export JAVA_HOME=/usr/lib/jvm/java export PATH=$PATH:$JAVA_HOME/bin 安装maven curl -o /etc/yum.repos.d/
阅读全文
摘要:Atlas Rest API总结部分Rest API,其他API查看Atlas官网Atlas Rest API AdminREST查看Atlas Metadata Server节点状态 GET /admin/statuscurl -s -u admin:admin "http://node2:210
阅读全文
摘要:版本 zookeeper-3.5.10 hadoop-2.8.5 hbase-2.2.4 geomesa-hbase_2.11-3.1.1 geoserver-2.17.1 安装HBase zoo.cfg tickTime=2000 initLimit=10 syncLimit=5 clientPo
阅读全文
摘要:理解六大关系中在代码中的体现,就可以轻松的阅读设计模式 一、泛化关系(Generalization) 说明:这种关系就是面向对象语言中的继承关系,逻辑上可以用"is a"表示。 代码体现:子类继承父类。 UML符号:一条实线+空心箭头。 图示: 二、实现关系(Realization) 说明:和泛化关
阅读全文

浙公网安备 33010602011771号