随笔分类 - 大数据
摘要:一、安装软件 1、安装flume cd /opt/Servers tar -zxvf flume1.8-bin.tar.gz gedit /opt/Servers/flume1.8/conf/kafka.properties agent.sources = s1 agent.channels = c
阅读全文
摘要:一、常规操作 1、连接数据库 psql -h 127.0.0.1 -p 5432 -U bi_data_admin -d teable -W 2、查询数据内容 select * from "teable"."bseufx"."ai_test" limit 10; 3、查询表结构 select * f
阅读全文
摘要:一、基础信息 1、概述 以下是私有化部署方案的优势: 性能卓越:提供媲美商业模型的对话交互体验 环境隔离:完全离线运行,杜绝数据外泄风险 数据可控:完全掌控数据资产,符合合规要求 2、硬件环境 CPU >= 2 Core 显存/RAM ≥ 16 GiB(推荐) 3、软件 (1)Ollama Olla
阅读全文
摘要:一、数据打快照做数据比较 1、mysql创建快照 优点:可以选择时间做快照,然后对比 缺点:需要额外的存储空间和处理时间,不好自动化,大表做快照成本高 2、实现方式 create database 快照名称 on (name=数据库名称,filename='存放快照路径/文件名.ss' as sna
阅读全文
摘要:文章链接:https://www.cnblogs.com/liugp/p/16273966.html
阅读全文
摘要:一、关键参数设置 1、HDFS 参数 值 描述 文件大小 文件大小 2、腾讯CHDS(对象大数据存储) 参数 值 描述 最大访问频次
阅读全文
摘要:一、Kerberos简介 Kerberos是一种基于对称密钥的身份认证协议,它作为一个独立的第三方的身份认证服务,可以为其它服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多个服务如HBase/HDFS等)。Kerberos协议主要用于计算机网络的身份鉴别(Authenticatio
阅读全文
摘要:一、Zookeeper服务 端口 描述 配置路径 2181 主要使用端口,对cline端提供服务。连接方式jdbc:hive2://ip:2181 conf/zoo.cfg中clientPort 2183 选举leader使用 conf/zoo.cfg中server.x=2182:2183 2182
阅读全文
摘要:一、简介 相当于在Lambda架构上去掉了批处理层(Batch Layer),只留下单独的流处理层(Speed Layer)。通过消息队列的数据保留功能,来实现上游重放(回溯)能力。 当流任务发生代码变动时,或者需要回溯计算时,原先的Job N保持不动,先新启动一个作业Job N+1,从消息队列中获
阅读全文
摘要:1、Robustandfault-tolerant(容错性和鲁棒性):对大规模分布式系统来说,机器是不可靠的,可能会当机,但是系统需要是健壮、行为正确的,即使是遇到机器错误。除了机器错误,人更可能会犯错误。在软件开发中难免会有一些Bug,系统必须对有Bug的程序写入的错误数据有足够的适应能力,所以比
阅读全文
摘要:一、定义 1、数据湖定义(Wikipedia): 数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结
阅读全文
摘要:一、Clickhouse解析Json 1、visitParamExtractBool(json,name) → 提取json中的name字段,返回UInt8,0或1 例:visitParamExtractBool('{"name":true}', 'name') AS bool 2、visitPar
阅读全文
摘要:https://archive.apache.org/dist/kylin/ 2.5.0版本 首先启动hadoop、hive、hbase 并记得设置环境变量 #JDK export JAVA_HOME=/opt/jdk/jdk1.8.0_161 export JRE_HOME=${JAVA_HOME
阅读全文
摘要:一、简介 PrestoConnection并不能提供一个持久的Socket连接,而是创建一个OkHttpClient与Presto按照HTTP1.1协议进行通信,并且PrestoConnection仅保存一些基本信息(catalog、schema等) 二、使用方式 1、建立连接 和传统的JDBC方式
阅读全文
摘要:Apache Linkis(incubating) 计算中间件 https://github.com/apache/incubator-linkisDataSphereStudio 一站式数据应用开发管理门户 https://github.com/WeBankFinTech/DataSphereSt
阅读全文
摘要:一、常用命令 1、连接zk ./zkCli.sh -server 127.0.0.1:2181 2、查看目录文件 普通信息 ls / 详细信息 ls2 / 3、新增znode create /test "test" 4、删除数据 delete /test 5、修改数据 set /test "rick
阅读全文
摘要:一、系统设计的一些原则海恩法则 事故的发生是量积累的结果再好的技术、在完美的规章,在实际操作层面也无法取代人自身的素质和责任心 墨菲定律 任何事情都没有表面看起来那么简单所有事情的发展都会比你预计的时间长会出错的事总会出错如果你担心某种情况发生,那么它更有可能发生 二、软件架构中的高可用设计 2.1
阅读全文
摘要:一、概念 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume系统中核心的角色是agent,agent本身是一个Java进程,一般运行在日志收集节点。 一个agent内部有三个组件: Source:采集源,用于跟数据源对接,以获取数据 Channel:agent内部的
阅读全文
摘要:一、常用命令 1、查询 连接客户端 hbase shell 查询优哪些表:list 查询表结构:describe 'table' 扫描表前几条数据:scan 't1',{LIMIT=>5} 查询表t1 rowkey001中的f1下的col1的值:get 't1','rowkey001', 'f1:c
阅读全文
摘要:一、基本资料 1、官方文档 https://prestodb.github.io/docs/current/sql/select.html 二、常用命令 1、kill任务,登录presto客户端 CALL system.runtime.kill_query(query_id => '20220317
阅读全文

浙公网安备 33010602011771号