随笔分类 - 大数据
摘要:1. 包无法访问 错误信息 java.lang.IllegalAccessError: class org.apache.spark.storage.StorageUtils$ (in unnamed module @0x2aceadd4) cannot access class sun.nio.c
阅读全文
摘要:错误信息 /Library/Java/JavaVirtualMachines/zulu-21.jdk/Contents/Home/bin/java -javaagent:/Users/liuyu/Applications/IntelliJ IDEA Ultimate.app/Contents/lib
阅读全文
摘要:IDEA 2024 配置 Flink Scala开发环境 一、环境 IntelliJ IDEA 2024.1 (Ultimate Edition) 项目JDK版本:Zulu JDK11 Scala 2.12.19 Scala编译ServerJDK版本: JDK21 Flink 1.19.1 二、步骤
阅读全文
摘要:一、Spark RDD 1. RDD是什么 RDD,即弹性分布式数据集(Resilient Distributed Dataset),是Spark对数据的抽象,本质上是分布在多个节点上的数据集合。 弹性是指当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。 分布式数据集是指一个数据集
阅读全文
摘要:Spark 使用遇到的问题 环境信息 IDEA版本:Build #IU-232.8660.185, built on July 26, 2023 系统版本:Macos 14.0 Docker版本: 一、Docker运行Spark集群 这里使用bitnami发行的spark image github文
阅读全文
摘要:> Trono文档地址https://trino.io/docs/current/ # Trino # 一、简介 1. Trino是通过分布式查询,高效处理大量数据的工具。要处理TB或PB级别的数据,一般是使用能够与Hadoop和HDFS进行交互的工具。Trino的设计目标就是取代这些工具,如Hiv
阅读全文