Fork me on GitHub
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 37 下一页
摘要: 1 定义 一个数据集是分布式的数据集合。Spark 1.6增加新接口Dataset,提供 RDD的优点:强类型、能够使用强大lambda函数 Spark SQL优化执行引擎的优点 可从JVM对象构造Dataset,然后函数式转换(map、flatMap、filter等)操作。Dataset API在 阅读全文
posted @ 2024-03-24 22:41 公众号-JavaEdge 阅读(90) 评论(0) 推荐(0)
摘要: 工程 | JOSH LONG | 0条评论 Java 22发布快乐! Java 22 是一个重大的进步,是一个值得升级版本。有一些重大的最终发布功能,如 Project Panama及一系列更优秀的预览功能。我不可能覆盖它们全部,但我确实想谈谈我最喜爱的一些。我们将会涉及到许多功能。如果你想在家里跟 阅读全文
posted @ 2024-03-23 23:30 公众号-JavaEdge 阅读(610) 评论(0) 推荐(0)
摘要: 0 Shark Spark 的一个组件,用于大规模数据分析的 SQL 查询引擎。Shark 提供了一种基于 SQL 的交互式查询方式,可以让用户轻松地对大规模数据集进行查询和分析。Shark 基于 Hive 项目,使用 Hive 的元数据存储和查询语法,并基于Hive进行了性能优化和扩展。 0.1 阅读全文
posted @ 2024-03-23 20:22 公众号-JavaEdge 阅读(84) 评论(0) 推荐(0)
摘要: 1 Spark 的 local 模式 Spark 运行模式之一,用于在本地机器上单机模拟分布式计算的环境。在 local 模式下,Spark 会使用单个 JVM 进程来模拟分布式集群行为,所有 Spark 组件(如 SparkContext、Executor 等)都运行在同一个 JVM 进程中,不涉 阅读全文
posted @ 2024-03-22 19:56 公众号-JavaEdge 阅读(231) 评论(0) 推荐(0)
摘要: ClickHouse是用于分析的OLAP数据库,因此典型的使用场景是处理相对较少的请求 — 从每小时几个到每秒几十甚至几百个不等 — 但会影响到大量数据(几GB/数百万行)。 但是在其他情况下,它的表现如何?让我们尝试用大量小请求来测试ClickHouse如何处理。这将帮助我们更好地了解可能的使用场 阅读全文
posted @ 2024-03-21 16:38 公众号-JavaEdge 阅读(242) 评论(0) 推荐(0)
摘要: 为了方便报表应用使用数据,需将ADS各项指标统计结果导出到MySQL,方便熟悉 SQL 人员使用。 1 MySQL建库建表 1.1 创建数据库 创建car_data_report数据库: CREATE DATABASE IF NOT EXISTS car_data_report # 字符集 DEFA 阅读全文
posted @ 2024-03-16 20:34 公众号-JavaEdge 阅读(101) 评论(0) 推荐(0)
摘要: 优秀可靠的数仓体系,需要良好的数据分层结构。合理的分层,能够使数据体系更加清晰,使复杂问题得以简化。以下是该项目的分层规划。 1 设计要点 (1)ODS层的表结构设计依托于从业务系统同步过来的数据结构 (2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比较高的,此处选择gzip (3)ODS层 阅读全文
posted @ 2024-03-15 14:32 公众号-JavaEdge 阅读(122) 评论(0) 推荐(0)
摘要: 2024年3月4日,官方宣布推出 Claude 3 模型系列,它在广泛的认知任务中树立了新的行业基准。该系列包括三个按能力递增排序的最先进模型:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个后续模型都提供越来越强大的性能,允许用户为其特定应用选择智 阅读全文
posted @ 2024-03-12 14:19 公众号-JavaEdge 阅读(286) 评论(0) 推荐(0)
摘要: 是的,\t 是指制表符(tab),它通常用作字段分隔符在 TSV(Tab-Separated Values)格式的文件中。TSV是一种简单的文本格式,它使用制表符来分隔每一列中的值,而每一行则代表一个数据记录。 TSV文件例: ID\tName\tAge\tCity 1\tJohn Doe\t28\ 阅读全文
posted @ 2024-03-11 22:15 公众号-JavaEdge 阅读(204) 评论(0) 推荐(0)
摘要: 两种用于优化查询性能的数据组织策略,数仓设计的关键概念,可提升Hive在读取大量数据时的性能。 1 分区(Partitioning) 根据表的某列的值来组织数据。每个分区对应一个特定值,并映射到HDFS的不同目录。 常用于经常查询的列,如日期、区域等。这样可以在查询时仅扫描相关的分区,而不是整个数据 阅读全文
posted @ 2024-03-10 20:26 公众号-JavaEdge 阅读(140) 评论(0) 推荐(0)
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 37 下一页