a-tao必须奥利给

2022年7月12日

摘要： spark-算子 groupBy -分组 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo7GroupBy { def main 阅读全文

posted @ 2022-07-12 08:49 a-tao必须奥利给阅读(51) 评论(0) 推荐(0)

Spark-RDD五大特性，常用算子

摘要： Spark内核 RDD ResilientDistributedDataset （弹性分布式数据集）五大特性: A list of partitions A function for computing each split A list of dependencies on other RDD 阅读全文

posted @ 2022-07-12 08:39 a-tao必须奥利给阅读(277) 评论(0) 推荐(0)

Spark初识

摘要： Spark初识回顾一下前面的MapReduce流程，可以更好的学习spark spark的框架 spark为什么比hadoop速度快 spark支持哪些语言 spark的运行模式有哪些 spark的单词统计 package com.core import org.apache.spark.rdd. 阅读全文

posted @ 2022-07-12 08:19 a-tao必须奥利给阅读(47) 评论(0) 推荐(0)

2022年7月11日

scala-day02_ (函数，集合，元组，map集合)

摘要： scala (函数，集合，元组，map集合，单词统计) scala面向函数编程，lambda表达式 package com.wt.day02 import scala.language.postfixOps /** * @author WangTao * @date 2022/7/8 18:00 * 阅读全文

posted @ 2022-07-11 00:02 a-tao必须奥利给阅读(61) 评论(0) 推荐(0)

2022年7月8日

scala_day01_安装_基础_IO_函数_递归_异常_方法_样例类_伴生对象

摘要： scala学习先看如下： scala 安装直接在idea中下载，然后配置 pom.xml 文件配置 pom.xml 文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0 阅读全文

posted @ 2022-07-08 00:15 a-tao必须奥利给阅读(30) 评论(0) 推荐(0)

2022年7月1日

数据中台建设方法论

摘要： ![](https://img2022.cnblogs.com/blog/2738901/202207/2738901-20220701144212567-294029765.png) ![](https://img2022.cnblogs.com/blog/2738901/202207/2738901-20220701144216571-1067164359.png) ![](https://i 阅读全文

posted @ 2022-07-01 14:47 a-tao必须奥利给阅读(71) 评论(0) 推荐(0)

2022年6月22日

Kettle_Linux下安装使用_调优

摘要：四、 Linux下安装使用 1、单机 jdk安装安装包上传到服务器，并解压注意：把mysql驱动拷贝到lib目录下将windows本地用户家目录下的隐藏目录C:\Users\自己用户名\.kettle 目录，整个上传到linux的用户的家目录下，root用户的家目录为/root/ 运行数据阅读全文

posted @ 2022-06-22 00:01 a-tao必须奥利给阅读(1171) 评论(0) 推荐(0)

2022年6月21日

Kettle_创建资源库

摘要：三、创建资源库 1、数据库资源库数据库资源库是将作业和转换相关的信息存储在数据库中，执行的时候直接去数据库读取信息，方便跨平台使用在MySQL中创建kettle数据库 mysql> create database kettle; Query OK, 1 row affected (0.01 se 阅读全文

posted @ 2022-06-21 23:58 a-tao必须奥利给阅读(390) 评论(0) 推荐(0)

Kettle_Kettle的安装及简单使用

摘要： Kettle的安装及简单使用一、kettle概述 1、什么是kettle Kettle是一款开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。 2、Kettle工程存储方式（1）以XML形式存储（2）以资源库方式存储(数据库资源库阅读全文

posted @ 2022-06-21 23:54 a-tao必须奥利给阅读(3414) 评论(0) 推荐(1)

FlinkX-day01_FlinkX的安装与简单使用

摘要： FlinkX的安装与简单使用 FlinkX概述 FlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线和实时的数据同步框架，实现了多种异构数据源之间高效的数据迁移。不同的数据源头被抽象成不同的Reader插件，不同的数据目标被抽象成不同的Writer插件。理论上，FlinkX框架可以支持阅读全文

posted @ 2022-06-21 00:39 a-tao必须奥利给阅读(126) 评论(0) 推荐(0)

atao-BigData

人生如逆旅，你我亦行人。

公告