上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 39 下一页
摘要: spark-算子 groupBy -分组 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo7GroupBy { def main 阅读全文
posted @ 2022-07-12 08:49 a-tao必须奥利给 阅读(51) 评论(0) 推荐(0)
摘要: Spark内核 RDD ResilientDistributedDataset (弹性分布式数据集 ) 五大特性: A list of partitions A function for computing each split A list of dependencies on other RDD 阅读全文
posted @ 2022-07-12 08:39 a-tao必须奥利给 阅读(277) 评论(0) 推荐(0)
摘要: Spark初识 回顾一下前面的MapReduce流程,可以更好的学习spark spark的框架 spark为什么比hadoop速度快 spark支持哪些语言 spark的运行模式有哪些 spark的单词统计 package com.core import org.apache.spark.rdd. 阅读全文
posted @ 2022-07-12 08:19 a-tao必须奥利给 阅读(47) 评论(0) 推荐(0)
摘要: scala (函数,集合,元组,map集合,单词统计) scala面向函数编程,lambda表达式 package com.wt.day02 import scala.language.postfixOps /** * @author WangTao * @date 2022/7/8 18:00 * 阅读全文
posted @ 2022-07-11 00:02 a-tao必须奥利给 阅读(61) 评论(0) 推荐(0)
摘要: scala学习 先看如下: scala 安装 直接在idea中下载,然后配置 pom.xml 文件 配置 pom.xml 文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0 阅读全文
posted @ 2022-07-08 00:15 a-tao必须奥利给 阅读(30) 评论(0) 推荐(0)
摘要: ![](https://img2022.cnblogs.com/blog/2738901/202207/2738901-20220701144212567-294029765.png) ![](https://img2022.cnblogs.com/blog/2738901/202207/2738901-20220701144216571-1067164359.png) ![](https://i 阅读全文
posted @ 2022-07-01 14:47 a-tao必须奥利给 阅读(71) 评论(0) 推荐(0)
摘要: 四、 Linux下安装使用 1、单机 jdk安装 安装包上传到服务器,并解压 注意: 把mysql驱动拷贝到lib目录下 将windows本地用户家目录下的隐藏目录C:\Users\自己用户名\.kettle 目录, 整个上传到linux的用户的家目录下,root用户的家目录为/root/ 运行数据 阅读全文
posted @ 2022-06-22 00:01 a-tao必须奥利给 阅读(1171) 评论(0) 推荐(0)
摘要: 三、创建资源库 1、数据库资源库 数据库资源库是将作业和转换相关的信息存储在数据库中,执行的时候直接去数据库读取信息,方便跨平台使用 在MySQL中创建kettle数据库 mysql> create database kettle; Query OK, 1 row affected (0.01 se 阅读全文
posted @ 2022-06-21 23:58 a-tao必须奥利给 阅读(390) 评论(0) 推荐(0)
摘要: Kettle的安装及简单使用 一、kettle概述 1、什么是kettle Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 2、Kettle工程存储方式 (1)以XML形式存储 (2)以资源库方式存储(数据库资源库 阅读全文
posted @ 2022-06-21 23:54 a-tao必须奥利给 阅读(3414) 评论(0) 推荐(1)
摘要: FlinkX的安装与简单使用 FlinkX概述 FlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线和实时的数据同步框架,实现了多种异构数据源之间高效的数据迁移。 不同的数据源头被抽象成不同的Reader插件,不同的数据目标被抽象成不同的Writer插件。理论上,FlinkX框架可以支持 阅读全文
posted @ 2022-06-21 00:39 a-tao必须奥利给 阅读(126) 评论(0) 推荐(0)
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 39 下一页