随笔分类 -  大数据

摘要:1. 包无法访问 错误信息 java.lang.IllegalAccessError: class org.apache.spark.storage.StorageUtils$ (in unnamed module @0x2aceadd4) cannot access class sun.nio.c 阅读全文
posted @ 2024-12-08 01:35 INnoVation-V2 阅读(252) 评论(0) 推荐(0)
摘要:错误信息 /Library/Java/JavaVirtualMachines/zulu-21.jdk/Contents/Home/bin/java -javaagent:/Users/liuyu/Applications/IntelliJ IDEA Ultimate.app/Contents/lib 阅读全文
posted @ 2024-06-21 10:35 INnoVation-V2 阅读(188) 评论(0) 推荐(0)
摘要:IDEA 2024 配置 Flink Scala开发环境 一、环境 IntelliJ IDEA 2024.1 (Ultimate Edition) 项目JDK版本:Zulu JDK11 Scala 2.12.19 Scala编译ServerJDK版本: JDK21 Flink 1.19.1 二、步骤 阅读全文
posted @ 2024-06-20 18:38 INnoVation-V2 阅读(2232) 评论(0) 推荐(0)
摘要:一、Spark RDD 1. RDD是什么 RDD,即弹性分布式数据集(Resilient Distributed Dataset),是Spark对数据的抽象,本质上是分布在多个节点上的数据集合。 弹性是指当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。 分布式数据集是指一个数据集 阅读全文
posted @ 2023-10-09 20:33 INnoVation-V2 阅读(50) 评论(0) 推荐(0)
摘要:Spark 使用遇到的问题 环境信息 IDEA版本:Build #IU-232.8660.185, built on July 26, 2023 系统版本:Macos 14.0 Docker版本: 一、Docker运行Spark集群 这里使用bitnami发行的spark image github文 阅读全文
posted @ 2023-10-08 17:18 INnoVation-V2 阅读(212) 评论(0) 推荐(0)
摘要:> Trono文档地址https://trino.io/docs/current/ # Trino # 一、简介 1. Trino是通过分布式查询,高效处理大量数据的工具。要处理TB或PB级别的数据,一般是使用能够与Hadoop和HDFS进行交互的工具。Trino的设计目标就是取代这些工具,如Hiv 阅读全文
posted @ 2023-07-08 15:27 INnoVation-V2 阅读(999) 评论(0) 推荐(0)