随笔分类 - 课程 / 并行分布式计算
摘要:一、Wikipedia介绍 A data processing unit (DPU) is a programmable computer processor that tightly integrates a general-purpose CPU with network interface h
阅读全文
摘要:一、InputStream和OutputStream (一)说明 InputStream和OutputStream是Java标准库中最基本的IO流,它们都位于java.io包中,该包提供了所有同步IO的功能。 java.io.InputStream 、 java.io.OutputStream (二
阅读全文
摘要:Hadoop没有使用Java.util.Properties管理配置文件,也没有使用Apache Jakarta Commons Configuration管理配置文件,而是使用了一套独有的配置文件管理系统,并提供自己的API,即使用org.apache.hadoop.conf.Configurat
阅读全文
摘要:FileStatus对象封装了文件系统中文件和目录的元数据,包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。 FileStatus对象一般由FileSystem的getFileStatus()方法获得,调用该方法的时候要把文件的Path传递进去。 (一)FileStatus字段解析
阅读全文
摘要:(一)概要 文件系统(FS)shell(以下简称为 FS Shell)包含各种类似于 shell 的命令,FS Shell中的大多数命令的行为类似于相应的 Unix 命令。错误信息将发送到stderr,标准输出将发送到stdout。这些命令可直接与Hadoop分布式文件系统(HDFS)以及Hadoo
阅读全文
摘要:谷歌在2003到2006年间发表了三篇论文,《MapReduce: Simplified Data Processing on Large Clusters》,《Bigtable: A Distributed Storage System for Structured Data》和《The Goog
阅读全文
摘要:原文链接:WIN10安装配置Hadoop【作者:余生】 本文记录在WIN10上hadoop单节点的安装,后续再记录多节点分布式的安装。 1、安装JAVA环境 下载JDK8,官网链接:Java SE Development Kit 8 选择64版本:jdk-8u241-windows-x64.exe
阅读全文
摘要:谷歌在2003到2006年间发表了三篇论文,《The Google File System》,《Bigtable: A Distributed Storage System for Structured Data》和《MapReduce: Simplified Data Processing on
阅读全文
摘要:一、Apache Hudi (一)背景 Hudi 是 Uber 主导开发的开源数据湖框架。所以大部分的出发点都来源于 Uber 自身场景,比如司机数据和乘客数据通过订单 Id 来做 Join 等。在 Hudi 过去的使用场景里,和大部分公司的架构类似,采用批式和流式共存的 Lambda 架构,我们先
阅读全文
摘要:MapReduce,它是 Hadoop 框架中处理的核心构建块之一。Google 在 2004 年 12 月发表了一篇关于 MapReduce 技术的论文,这成为 Hadoop Processing Model 的起源。 MapReduce 是一种编程模型,可以让我们对庞大的数据集进行并行和分布式处
阅读全文
摘要:(一)Spark介绍 Spark是一个通用的分布式数据处理引擎。 通用:通用指的是Spark可以做很多事情。包括机器学习,数据流传输,交互分析,ETL,批处理,图计算等等等等都是Spark可以做到的。甚至可以说,你需要用数据实现的任何事情,你都可以用Spark试试看。 分布式:指的是Spark处理数
阅读全文
摘要:一、Hadoop介绍 (一)Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情
阅读全文
摘要:当需要存储的数据集的大小超过了一台独立的物理计算机的存储能力时,就需要对数据进行分区并存储到若干台计算机上去。管理网络中跨多台计算机存储的文件系统统称为分布式文件系统(distributed fileSystem)。 分布式文件系统由于其跨计算机的特性,所以依赖于网络的传输,势必会比普通的本地文件系
阅读全文
摘要:在开发接口服务器的过程中,为了防止客户端对于接口的滥用,保护服务器的资源, 通常来说我们会对于服务器上的各种接口进行调用次数的限制。比如对于某个 用户,他在一个时间段(interval)内,比如 1 分钟,调用服务器接口的次数不能够 大于一个上限(limit),比如说 100 次。如果用户调用接口的
阅读全文
摘要:(一)MPI简介 MPI是一个跨语言的通讯协议,用于编写并行计算机。支持点对点和广播。MPI是一个信息传递应用程序接口,包括协议和和语义说明,他们指明其如何在各种实现中发挥其特性。 MPI的目标是高性能,大规模性,和可移植性。MPI在今天仍为高性能计算的主要模型。与OpenMP并行程序不同,MPI是
阅读全文
摘要:原文链接:并行编程OpenMP基础及简单示例 一、OpenMP基本概念 OpenMP是一种用于共享内存并行系统的多线程程序设计方案,支持的编程语言包括C、C++和Fortran。OpenMP提供了对并行算法的高层抽象描述,特别适合在多核CPU机器上的并行程序设计。 编译器根据程序中添加的pragma
阅读全文
摘要:(一)串行快速排序 程序中 j = right - 1; 语句说明:此句直接从倒数第二个开始,同时由于--j会判断倒数第三个。这是因为在使用三数中值分割后:最后一个一定大于枢纽元,经过交换,倒数第二个就是枢纽元。 #include <iostream> #define CUTOFF 10 // 定义
阅读全文

浙公网安备 33010602011771号