文章分类 - 大数据相关
大数据相关
摘要:来源于: https://blog.csdn.net/weixin_34258782/article/details/85830080/ 转自Linux下GBK文件编码批量转换UTF-8命令 在工作中,经常会遇到使用操作系统不一样的环境,从而导致在不同环境下的文件编辑的编码是不一样的,Windows
阅读全文
摘要:来源于:https://blog.csdn.net/jxlhljh/article/details/131823390 将以GBK编码上传到Linux的文件转换为UTF-8编码 要将以GBK编码上传到Linux的文件转换为UTF-8编码,可以按照以下步骤进行操作 1.首先,确保你的Linux系统已经
阅读全文
摘要:来源于微信公众号 https://mp.weixin.qq.com/s/wD7CH4S4L5GUNCcmWtmpBw Hive SQL 大全 本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句): 对数据库的操作:包含创建、修改数据
阅读全文
摘要:来源于 : https://mp.weixin.qq.com/s/faO8f4YnZPJvNHxEoKeZAQ 本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等! 目录: 一、数据模型架构原则 数仓分层原则 主题域划分原则
阅读全文
摘要:来源于:https://mp.weixin.qq.com/s/YAntwK1oQ1FGN6dFtlTzpQ 2023年1月4日,在第五届“数据资产管理大会”上,《数据资产管理实践白皮书(6.0版)》正式发布,由中国信息通信研究院云计算与大数据研究所副所长魏凯进行解读。 《数据资产管理实践白皮书》是大
阅读全文
摘要:Apache Doris
阅读全文
摘要:来源于 公众号 大数据肌肉猿 https://mp.weixin.qq.com/s/4eEJsNPl6TbCV-zhy5Z3hw 01 数据分类分级提出的背景 数据的价值 1.数据爆炸时代,数据量呈指数级增长 我们要如何看待数据这个话题。数据大爆炸已经成为了一个趋势,随着数字化转型的步伐逐步加快,数
阅读全文
摘要:转载于 大鱼的数据人生 公众号 https://mp.weixin.qq.com/s/IeFJSTgGZb4K16VeVuKL6w 数字化时代,企业需要知道它们拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业
阅读全文
摘要:来源于 https://www.jianshu.com/p/d525c9f95c61 前言 上一篇文章谈了单机的定时任务解决方案,只能在单个JVM进程中使用;而我们的现在基本上是分布式场景,需要一套在分布式环境下高性能、高可用、可扩展的分布式任务调度框架;是否将之前的单机解决方案部署到分布式就可以?
阅读全文
摘要:来源于 https://www.xuxueli.com/xxl-job/ 《分布式任务调度平台XXL-JOB》 一、简介 1.1 概述 1.2 社区交流 1.3 特性 1.4 发展 1.5 下载 文档地址 源码仓库地址 中央仓库地址 1.6 环境 二、快速入门 2.1 初始化“调度数据库” 2.2
阅读全文
摘要:https://mp.weixin.qq.com/s/qRP6dgZcGJFVW6f3t68W_w 大鱼的数据人生 2022-09-14 07:30 发表于浙江 大鱼的数据人生 我是大鱼先生,CDO,跟你分享有关数据的一切! 56篇原创内容 公众号 数据中台到底是什么?几年过去了,也一直众说纷纭。笔
阅读全文
摘要:来源于 : https://www.freesion.com/article/5928691245/ 程序员专属的优秀博客文章阅读平台 WINDOWS下安装KAFKA集群 版本环境:zookeeper-3.4.14 kafka-2.2.0一 安装zookeeper集群1.解压完成后修改conf/zo
阅读全文
摘要:来源于: https://www.cnblogs.com/q1359720840/p/16050381.html Apache Downloads 下载zk 准备三份 每个zk都创建这两个文件夹 在每个zkData都创建myid文件,没有后缀名 内容分别写着 1 2 3 (zk3.8-1 写的1,3
阅读全文
摘要:来源于 : https://blog.csdn.net/m0_48339508/article/details/123796821 本文以搭建三个kafka为例:目录 本文以搭建三个kafka为例: 第一步在kafka的config的文件下,找到server.properties 第二步:以se
阅读全文
摘要:来源于 https://www.zhangshilong.cn/work/215675.html Kettle是一款知名的开源ETL工具,基于java编写而成,可以在Windows、Linux、Unix等跨平台运行,数据抽取高效稳定。 Kettle官方地址下载:由于Data Integration官
阅读全文
摘要:来源于 https://blog.csdn.net/hr787753/article/details/78667472 重要脚本模板 值得参考 #!/bin/bash # # 程序名称: hive的shell脚本 # 功能描述: 将book表与course等值连接,数据分区插入 # 输入参数: 运行
阅读全文
摘要:来源于 https://help.aliyun.com/document_detail/117432.html 数据层次的划分 数据分类架构 数据处理流程架构 数据划分及命名空间约定 数据模型 本文为您介绍数据模型架构规范。 声明 本文以及后续章节中介绍的非功能性规范均为建议性规范,产品功能无强制,
阅读全文
摘要:来源于 https://www.aboutyun.com/thread-19977-1-1.html hive常见错误汇总 1安装与启动1.1 Hive安装失败报register service defaultUser failed. 版本加入kerberos互信机制后,变更hive的默认用户为hi
阅读全文