摘要: 数据读写(支持多格式) Spark SQL 支持读写主流结构化数据格式,语法统一: // 1. 读取数据 // Parquet(默认,列式存储,高效) val parquetDF = spark.read.parquet("path/to/data.parquet") // JDBC(读取 MySQ 阅读全文
posted @ 2026-02-15 12:40 Look_Back 阅读(4) 评论(0) 推荐(0)
摘要: 今天忙了一天,很疲惫 阅读全文
posted @ 2026-02-13 19:59 Look_Back 阅读(2) 评论(0) 推荐(0)
摘要: 今天去同学家里帮了一天忙,明天同学正式结婚,还要去一天 阅读全文
posted @ 2026-02-12 18:31 Look_Back 阅读(2) 评论(0) 推荐(0)
摘要: 一、Spark SQL 核心定位与价值 Spark SQL 是 Spark 用于处理结构化数据的模块,它将 SQL 查询与 Spark 的分布式计算能力结合,核心价值体现在: 统一数据访问:支持查询结构化数据(Hive、Parquet、JSON、JDBC 等),无需关注数据存储格式; 多语言支持:可 阅读全文
posted @ 2026-02-10 13:49 Look_Back 阅读(2) 评论(0) 推荐(0)
摘要: 一、RDD 核心定位与定义 RDD(Resilient Distributed Dataset)即弹性分布式数据集,是 Spark 最核心的抽象,本质是一个不可变的、可分区的、支持并行计算的分布式数据集合。 核心作用:作为 Spark 处理海量数据的基础数据结构,屏蔽了底层分布式计算的复杂性,让开发 阅读全文
posted @ 2026-02-07 17:28 Look_Back 阅读(4) 评论(0) 推荐(0)
摘要: 一、Scala 核心定位与特点 Scala 是一门多范式编程语言(面向对象 + 函数式),运行在 JVM 上,兼具 Java 的工程实用性和函数式编程的简洁性。 面向对象:一切皆对象(包括数字、函数),支持类、继承、特质(Trait)等; 函数式:函数是一等公民(可作为参数 / 返回值),支持不可变 阅读全文
posted @ 2026-02-04 12:46 Look_Back 阅读(5) 评论(0) 推荐(0)
摘要: UDF(User-Defined Function,用户自定义函数) 是 Hive 提供的扩展机制,允许用户根据业务需求编写自定义的函数,以扩展 HiveQL 的功能。 基础 UDF 开发(继承 UDF 类) import org.apache.hadoop.hive.ql.exec.UDF; im 阅读全文
posted @ 2026-02-01 15:44 Look_Back 阅读(2) 评论(0) 推荐(0)
摘要: 知识存储 核心定位:选择适配知识图谱的存储方案,保障高效查询与数据管理 主流存储方案:知识存储以图数据库为主,核心支持 “节点 - 关系” 的图结构存储与遍历,主流产品对比: Neo4j:老牌图数据库,功能强大,单节点支持上亿级节点 / 关系,遍历效率高,有独立后端存储,支持分布式集群部署;社区版免 阅读全文
posted @ 2026-01-31 17:59 Look_Back 阅读(5) 评论(0) 推荐(0)
摘要: 知识加工 核心定位:从 “事实” 到 “知识” 的升华,通过推理与建模拓展知识边界 核心定义:对抽取、融合后的基础事实进行本体构建与知识推理,补充缺失知识、优化知识结构,形成结构化、网络化的知识体系。 两大核心任务 本体构建:搭建知识图谱的 “骨架”,定义领域内的术语集合、概念层级、关系规则,是知识 阅读全文
posted @ 2026-01-30 14:29 Look_Back 阅读(3) 评论(0) 推荐(0)
摘要: 知识融合 核心定位:解决多源数据的 “歧义与冗余”,实现知识的统一与整合 核心定义:知识融合(含本体对齐、实体对齐)是将多来源、异构数据中关于同一实体 / 概念的描述整合,消除冲突、冗余,形成统一知识表示的过程。 三大核心任务 实体统一(共指消解):识别不同表象对应的同一实体(如 “中华人民共和国” 阅读全文
posted @ 2026-01-29 12:48 Look_Back 阅读(4) 评论(0) 推荐(0)