摘要: 1.分区列表(a list of partitions)。Spark RDD是被分区的,每一个分区都会被一个计算任务(Task)处理,分区数决定并行计算数量,RDD的并行度默认从父RDD传给子RDD。默认情况下,一个HDFS上的数据分片就是一个Partition,RDD分片数决定了并行计算的力度,可 阅读全文
posted @ 2021-11-08 22:12 lmandcc 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压,配置环境变量 配置bin目录 解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/ 改名:mv spark-2.4. 阅读全文
posted @ 2021-11-08 21:36 lmandcc 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 2、预备知识-python核心用法常用数据分析库(下) 概述 Python 是当今世界最热门的编程语言,而它最大的应用领域之一就是数据分析。在python众多数据分析工具中,pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。使用 Pandas 我们可以 阅读全文
posted @ 2021-10-28 22:22 lmandcc 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 1、预备知识-python核心用法常用数据分析库(上) 概述 Python 是当今世界最热门的编程语言,而它最大的应用领域之一就是数据分析。在python众多数据分析工具中,pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。使用 Pandas 我们可以 阅读全文
posted @ 2021-10-28 22:20 lmandcc 阅读(214) 评论(0) 推荐(1) 编辑
摘要: Kettle的安装及简单使用 一、kettle概述 1、什么是kettle Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 2、Kettle工程存储方式 (1)以XML形式存储 (2)以资源库方式存储(数据库资源库 阅读全文
posted @ 2021-10-24 22:22 lmandcc 阅读(382) 评论(0) 推荐(1) 编辑
摘要: Flume的安装及使用 Flume的安装 1、上传至虚拟机,并解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/ 在环境变量中增加如下命令,可以使用 soft 快速切换到 /usr/local/soft alias soft= 阅读全文
posted @ 2021-10-22 21:51 lmandcc 阅读(69) 评论(0) 推荐(0) 编辑
摘要: FlinkX的安装与简单使用 FlinkX的安装 安装unzip:yum install unzip 1、上传并解压 unzip flinkx-1.10.zip -d /usr/local/soft/ 2、配置环境变量 3、给bin/flinkx这个文件加上执行权限 chmod a+x flinkx 阅读全文
posted @ 2021-10-21 21:57 lmandcc 阅读(104) 评论(0) 推荐(0) 编辑
摘要: DataX的安装及使用 DataX的安装 DataX不需要依赖其他服务,直接上传、解压、安装、配置环境变量即可 也可以直接在windows上解压 DataX的使用 stream2stream 编写配置文件stream2stream.json # stream2stream.json { "job": 阅读全文
posted @ 2021-10-21 21:55 lmandcc 阅读(29) 评论(0) 推荐(0) 编辑
摘要: SQOOP安装及使用 SQOOP安装 1、上传并解压 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/local/soft/ 2、修改文件夹名字 mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop-1.4.7 阅读全文
posted @ 2021-10-19 20:04 lmandcc 阅读(51) 评论(0) 推荐(0) 编辑
摘要: Phoenix Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。 Pho 阅读全文
posted @ 2021-10-14 19:09 lmandcc 阅读(37) 评论(0) 推荐(0) 编辑