• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • YouClaw
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
why2005rg
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理
上一页 1 2 3 4 5 6 ··· 10 下一页

2026年2月27日

第15天:特征工程——特征提取、转换与选择
摘要: 内容要点: 特征提取:TF-IDF(文本特征)、Word2Vec。 特征转换: StringIndexer(字符串编码)、OneHotEncoder(独热编码)。 VectorAssembler(将多列特征合并为特征向量列)——最关键步骤。 标准化与归一化:StandardScaler、MinMax 阅读全文
posted @ 2026-02-27 11:59 2305-3王皓扬 阅读(5) 评论(0) 推荐(0)
 
第14天:MLlib入门——机器学习基础与Spark MLlib简介
摘要: 内容要点: 机器学习简介:监督学习(分类/回归)、无监督学习(聚类)。 MLlib演进:基于RDD的旧API vs 基于DataFrame的新API(ML Pipelines)。 核心概念:DataFrame(特征向量列+标签列)、Transformer(转换器)、Estimator(估计器)、Pi 阅读全文
posted @ 2026-02-27 11:59 2305-3王皓扬 阅读(5) 评论(0) 推荐(0)
 
第13天:Spark Streaming监控与问题排查
摘要: 内容要点: Web UI监控:Streaming页面查看批次处理时间、调度延迟、活跃批次。 StreamingQueryListener:自定义监听器,实时获取查询状态、开始/终止事件。 常见问题排查: 批次堆积(Processing Time > Batch Interval):资源不足或数据倾斜 阅读全文
posted @ 2026-02-27 11:58 2305-3王皓扬 阅读(2) 评论(0) 推荐(0)
 
第12天:Structured Streaming流-流Join与流-维表Join
摘要: 内容要点: 流-流Join:两个无限流的关联(如广告点击流与曝光流),需设置水印和状态清理。 流-维表Join:实时流关联静态维度表(如用户基本信息),可使用broadcast或定期拉取最新维度数据。 流-静态表Join:关联历史快照表(如黑名单表)。 阅读全文
posted @ 2026-02-27 11:57 2305-3王皓扬 阅读(4) 评论(0) 推荐(0)
 
第11天:Structured Streaming事件时间处理与水印
摘要: 内容要点: 处理乱序数据:为什么不能只依赖处理时间。 水印(Watermark)机制:定义延迟阈值,系统等待一定时间后关闭窗口,丢弃过迟数据。 代码实战:在Structured Streaming聚合查询中使用withWatermark。 输出模式限制:水印必须与Append/Update模式配合使 阅读全文
posted @ 2026-02-27 11:57 2305-3王皓扬 阅读(2) 评论(0) 推荐(0)
 
第10天:Spark Streaming容错与一致性——Exactly-Once语义实现
摘要: 内容要点: 语义定义:At-most-once(可能丢)、At-least-once(可能重)、Exactly-once(精确一次)。 实现Exactly-Once三要素: 可重放源:如Kafka(可以回溯Offset)。 Checkpointing:保存应用状态和已处理Offset到可靠存储(如H 阅读全文
posted @ 2026-02-27 11:57 2305-3王皓扬 阅读(5) 评论(0) 推荐(0)
 
第9天:Spark Streaming状态管理——mapWithState与updateStateByKey
摘要: 内容要点: 有状态计算场景:跨批次累加(如统计历史总PV/UV)。 updateStateByKey:全量状态更新,性能较差(每次返回所有key的状态)。 mapWithState:增量状态更新,仅返回更新的key,性能更优。 状态存储:State Store(默认内存/HDFS)和RocksDB( 阅读全文
posted @ 2026-02-27 11:56 2305-3王皓扬 阅读(2) 评论(0) 推荐(0)
 
寒假学习8
摘要: Spark Streaming与Kafka集成——高性能实时数据管道 内容要点: 集成方式对比: Receiver模式(已弃用):通过WAL保证可靠性,但效率低。 Direct模式(推荐):直接连接Kafka分区,并行度一致,Exactly-Once语义基础。 Offset管理:通过Checkpoi 阅读全文
posted @ 2026-02-27 11:56 2305-3王皓扬 阅读(1) 评论(0) 推荐(0)
 
寒假学习7Spark Streaming窗口操作——滑动窗口与滚动窗口实战
摘要: 内容要点: 时间概念:事件时间(Event Time) vs 处理时间(Processing Time)。 窗口类型: 滚动窗口(Tumbling Window):固定长度,数据不重叠。 滑动窗口(Sliding Window):固定长度,数据重叠(需设置滑动步长)。 窗口操作实战:使用window 阅读全文
posted @ 2026-02-27 11:56 2305-3王皓扬 阅读(4) 评论(0) 推荐(0)
 
寒假学习6:Structured Streaming——声明式流处理API
摘要: Structured Streaming——声明式流处理API 内容要点: 从DStream(RDD范式)到Structured Streaming(DataFrame范式)的演进。 核心模型:将数据流视为“无界表”,每个新数据像追加到表中的行。 输出模式:Append(仅追加)、Complete( 阅读全文
posted @ 2026-02-27 11:55 2305-3王皓扬 阅读(3) 评论(0) 推荐(0)
 
 
上一页 1 2 3 4 5 6 ··· 10 下一页

公告


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3