安装VMware15与Centos7

博主头像 前言: 技术随着时间不断变迁,曾经学习时还使用着VMware12和Centos6.5,已过去1年 》发现现在主流为VMware16和Centos7。并且旧版本出现了问题: 无法安装Docker,远程仓库出现问题,或者是版本不兼容 学习的视频基本上都是采用的Centos7,因此部分命令的不一样导致学习 ...

hadoop源码_hdfs启动流程_3_心跳机制

博主头像 hadoop在启动namenode和datanode之后,两者之间是如何联动了?datanode如何向namenode注册?如何汇报数据?namenode又如何向datanode发送命令? 心跳机制基础概念 ​ 心跳就是HDFS中从节点DataNode周期性的向名字节点DataNode做汇报,汇报自 ...

hadoop源码_hdfs启动流程_2_DataNode

博主头像 执行start-dfs.sh脚本后,集群是如何启动的? 本文阅读并注释了start-dfs脚本,以及datanode的启动主要流程流程源码。 DataNode 启动流程 脚本代码分析 start-dfs.sh中启动datanode的代码: # # datanodes (using default w ...

Doris开发手记3:利用CoreDump文件快速定位Doris的查询问题

博主头像 Apache Doris的BE部分是由C++编写,当出现一些内存越界,非法访问的问题时会导致BE进程的Crash。这部分的问题常常较难排查,同时也很难快速定位到对应的触发SQL,给使用者带来较大的困扰。所以下面会介绍通过Linux的CoreDump快速定位到问题SQL,并复现问题的方式。 1.查看日 ...

再看Lambda架构

博主头像 博客原文地址 最近看了一本《大数据系统构建》的书,发现之前对于Lambda架构的理解还是不够深入和清晰。 之前对Lambda架构的理解 Azure文档上有一张Lambda架构的图, 同时也配有对Lambda架构最基本的理解: 批处理层(冷路径)以原始形式存储所有传入数据,对数据进行批处理。 该处理的 ...

hadoop源码_hdfs启动流程_1_NameNode

博主头像 执行start-dfs.sh脚本后,集群是如何启动的? 本文阅读并注释了start-dfs脚本,以及namenode和datanode的启动主要流程流程源码。 阅读源码前准备 源码获取 拉取Apache Hadoop官方源码 https://github.com/apache/hadoop 用ide ...

Doris开发手记2:用SIMD指令优化存储层的热点代码

博主头像 最近一直在进行Doris的向量化计算引擎的开发工作,在进行CPU热点排查时,发现了存储层上出现的CPU热点问题。于是尝试通过SIMD的指令优化了这部分的CPU热点代码,取得了较好的性能优化效果。借用本篇手记记录下问题的发现,解决过程一些对于C/C++程序性能问题的一些解决思路,希望各位也能有所收获。 ...

ClickHouse源码笔记6:探究列式存储系统的排序

博主头像 分析完成了聚合以及向量化过滤,向量化的函数计算之后。本篇,笔者将分析数据库的一个重要算子:排序。让我们从源码的角度来剖析ClickHouse作为列式存储系统是如何实现排序的。 本系列文章的源码分析基于ClickHouse v19.16.2.2的版本。 1.执行计划 老规矩,咱们还是先从一个简单的查询 ...

数据采集实战(一)-- 链家网成交数据 (by puppeteer)

博主头像 概述 最近在学习python的各种数据分析库,为了尝试各种库中各种分析算法的效果,陆陆续续爬取了一些真实的数据来。 顺便也练习练习爬虫,踩了不少坑,后续将采集的经验逐步分享出来,希望能给后来者一些参考,也希望能够得到先驱者的指点! 采集工具 其实基本没用过什么现成的采集工具,都是自己通过编写代码来采 ...

HiveSQL常用(下篇:使用技巧与优化)

博主头像 结合实际工作应用,整理HiveSQL常用实用相关,包括常用函数、语句,以及使用技巧与优化和其它注意项等,分为上下篇,下篇:使用技巧与优化 (1)Hive常用日期格式处理 (2)Hive常用函数 (3)Hive常用语句(实用) 数据加载清理与建表 表检索与表结构查询 (... ...

大数据学习记录_02_hadoop基础以及集群安装

博主头像 第一部分 大数据简介 第一节 大数据的定义 ​ 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 第二节 大数据的特点 大数据的特点可以用IBM曾经提出的“5V”来描述,如下 ...

Sqoop

博主头像 简介 Sqoop是一款开源工具,主要用于Hadoop(HDFS、Hbase、HIVE)与传统数据库(Mysql、Oracle、Postgresql)间进行数据的传递。 它可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中 背景 Sqoop最早是作 ...

使用 Apache Superset 可视化 ClickHouse 数据

博主头像 Apache Superset是一个强大的BI工具,它提供了查看和探索数据的方法。它在 ClickHouse 用户中也越来越受欢迎。 我们将介绍安装 Superset 的 2 种方法,然后展示如何从 Superset 连接到您的第一个 ClickHouse 数据库。代码示例基于 Ubuntu 18. ...

阿里云数仓Dataworks数据导出到文件step by step

博主头像 背景 假设你在阿里云上Dataworks的空间space下有一个表table_A,想要把它的数据导出到文件以供后续使用,但是数据量又很多,从浏览器复制不太现实。阿里云提供了Java和Python版本的SDK,用来完成这个操作。 为了帮助业务取数,我之前搜了很多文档包括官方文档,但都没有完整讲清楚具体 ...

数据库的范式详解

博主头像 关系数据库设计之时是要遵守一定的规则的。尤其是数据库设计范式 现简单介绍1NF(第一范式),2NF(第二范式),3NF(第三范式)和BCNF,另有第四范式和第五范式留到以后再介绍。 在你设计数据库之时,若能符合这几个范式,你就是数据库设计的高手。 第一范式(1NF):在关系模式R中的每一个具体关系r ...

全国大学高校基础信息 API 接口

博主头像 全国大学高校基础信息 API 接口 提供全国大学高校基础信息。 1. 产品功能 提供最新的全国学院基本信息以及招生数据; 总计近 3000 条全国高校精准数据; 每月一次更新校正数据; 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3); 全面兼容 Apple AT ...

操作系统——信号量例题

博主头像 有一个仓库,可以存放 A 和 B 两种产品,仓库的存储空间足够大,但要求: (1)一次只能存入一种产品(A 或 B); (2)-N < (A 产品数量-B 产品数量) < M。 其中,N 和 M 是正整数。试用“存放 A”和“存放 B”以及 P、V 操作描述产品 A 与 产品 B 的入库过程。 Se ...

123···12>