1.15记录

准备学新东西,在网上找了些教材,以下是收集到的合集。
Hive 核心与实操

  • 尚硅谷 Hive 入门到精通(基础实操部分)推荐理由:跳过原理和源码部分,重点看DDL(创建表、修改表、分区表)、DML(加载数据、插入数据)、查询语句等基础实操内容,时长约8小时,讲解细致,每个操作都有对应的案例演示。B站直接搜索即可,免费观看。

  • Hive 官方文档推荐理由:遇到Hive SQL语法问题时优先查阅,包含详细的语法说明和函数手册。地址:https://cwiki.apache.org/confluence/display/Hive/Home

Spark 核心与实操

  • 尚硅谷 Spark 入门到精通(Spark SQL + Java API部分)推荐理由:优先看Spark SQL和Java API相关内容,这两部分是软件专业学生最容易上手的,也符合大数据开发的主流使用场景。视频时长约10小时,包含大量实操案例,比如读取Hive表数据、数据转换、结果输出等。B站搜索即可找到。

  • 《Spark快速大数据分析》(Learning Spark)第1-5章推荐理由:经典的Spark入门书籍,第1-5章聚焦基础概念和核心操作,语言通俗易懂,适合大学生阅读。可以在微信读书、Z-Library等平台找到电子版,免费阅读。

  • Spark 官方文档(中文)推荐理由:包含Spark SQL语法、DataFrame/DataSet操作、性能优化基础等内容,权威且详细。地址:https://spark.apache.org/docs/latest/index.html
    数仓建模与项目实战阶段

预习的关键是“学以致用”,通过小型项目将前面所学的工具整合起来,形成完整的知识体系。这部分资源重点推荐轻量化、数据易获取的项目资料。

  1. 数仓基础理论
  • B站 数仓建模 入门到实战(轻量化教程)推荐理由:优先看Kimball星型模型和数仓分层(ODS→DWD→DWS→ADS)部分,时长约5小时,讲解通俗易懂,不用深入数据治理、血缘分析等复杂内容,适合预习阶段建立数仓认知。搜索关键词“数仓建模 入门到实战”即可找到。

  • 《数据仓库工具箱》(Kimball)(选读)推荐理由:数仓建模的经典书籍,预习阶段不用通读,重点看星型模型、缓慢变化维度(SCD1/SCD2)相关章节,可作为项目实战时的参考手册。电子版可在Z-Library等平台找到。

  1. 项目实战资料
  • B站 电商数仓 实战 入门推荐理由:选择轻量化的电商数仓项目教程,避免复杂的调度和集群配置,重点看数据分层、SQL实操部分。跟着教程一步步完成ODS层到ADS层的搭建,能快速掌握数仓的核心流程。搜索关键词“电商数仓 实战 入门”即可找到。

  • 阿里天池 用户行为数据集推荐理由:免费获取的公开数据集,数据量适中,适合大学生做数仓项目。包含用户点击、下单、支付等行为数据,可直接用于电商数仓项目的实操。地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1

  • GitHub 电商数仓项目示例推荐理由:参考成熟的项目结构和代码,学习如何整理项目文档、编写SQL脚本。搜索关键词“电商数仓 项目 GitHub”,找Star数量多、文档详细的仓库,比如“ruozedata/hive-course”,可直接参考项目的分层设计和SQL写法。

四、实时计算铺垫阶段(可选)

如果预习时间充裕,可对实时计算做简单了解,为下学期深入学习铺垫,不用深入高级概念。

  • 狂神说 Kafka 入门到精通(基础部分)推荐理由:重点看Kafka的核心概念(生产者/消费者、分区/副本)和基础命令操作,时长约4小时,讲解清晰,跟着操作就能搭建Kafka环境、实现消息的发送和接收。B站搜索即可找到。

  • Kafka 官方文档(中文)推荐理由:包含Kafka的配置说明、Java API使用指南,遇到问题时可查阅。地址:https://kafka.apache.org/documentation/

posted @ 2026-01-15 16:47  Thanatos。syts  阅读(0)  评论(0)    收藏  举报