摘要: RDD(弹性分布式数据集)及常用算子 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。 弹性 存储的弹性:内存与磁盘的自动切换; 容 阅读全文
posted @ 2022-10-31 15:38 伍点 阅读(327) 评论(0) 推荐(0) 编辑
摘要: Spark基本知识 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 spark与hadoop的区别 Hadoop Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式 分析应用的开源框架 作为 Hadoop 分布式文件系统,HDFS 处于 Ha 阅读全文
posted @ 2022-10-30 20:55 伍点 阅读(113) 评论(0) 推荐(0) 编辑
摘要: Spark搭建 Standalone模式 1、上传解压 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 2、修改配置文件 # 重命名文件 cp sp 阅读全文
posted @ 2022-10-30 20:26 伍点 阅读(72) 评论(0) 推荐(0) 编辑
摘要: python基础 Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言 开发者:Guido van Rossum(人称龟叔) 基本概念 1.变量 变量名必须是大小写英文字母、数字或下划线 _ 的组合,不能用数字开头,并且对 大小写敏感 关键字不能用于命名变量,如and、as、ass 阅读全文
posted @ 2022-10-10 20:59 伍点 阅读(472) 评论(0) 推荐(0) 编辑
摘要: Hbase过滤器 HBase 的基本 API,包括增、删、改、查等。 增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。 HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤器(Filte 阅读全文
posted @ 2022-10-06 16:42 伍点 阅读(110) 评论(0) 推荐(0) 编辑
摘要: HBase1.4.6安装搭建 一、前期准备(Hadoop,zookeeper,jdk) 启动hadoop start-all.sh 验证 http://master:50070 启动zookeeper(三台分别启动) zkServer.sh start 检查状态 zkServer.sh status 阅读全文
posted @ 2022-10-06 16:07 伍点 阅读(409) 评论(0) 推荐(0) 编辑
摘要: DataX基本使用 1.打印输入流在控制台 获取模板 datax.py -r 输入数据源名字 -w 输出数据源名字(可以到官网上找到准确的名字) 如:datax.py -r mysqlreader -w hbase11xwriter 编写stream2stream.json文件 streamread 阅读全文
posted @ 2022-09-26 22:31 伍点 阅读(904) 评论(0) 推荐(0) 编辑
摘要: Hbase概述与读写流程 一、Hbase概述 Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的) HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通 阅读全文
posted @ 2022-09-21 21:15 伍点 阅读(383) 评论(0) 推荐(0) 编辑
摘要: hive的查询语法(DQL) 全局排序 order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间 使用 order by子句排序 :ASC(ascend)升序(默认)| DESC(descend)降序 order by放在select语句的结尾 局 阅读全文
posted @ 2022-09-14 21:55 伍点 阅读(194) 评论(0) 推荐(0) 编辑
摘要: Hive的分区、分桶 Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多 阅读全文
posted @ 2022-09-14 16:46 伍点 阅读(491) 评论(0) 推荐(0) 编辑