摘要:
前期工作 scala 一、介绍 1.1、RDD介绍 1.2、缓存策略 cache persist, StorageLevel Lineage , 如果Lineage过长,为了容错,就需要进行缓存或者checkpoint 宽窄依赖 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主 阅读全文
posted @ 2021-06-17 15:40
宝哥大数据
阅读(75)
评论(0)
推荐(0)
摘要:
一、大数据的三个发展方向 平台搭建/优化/运维/监控 大数据开发/设计/架构 数据分析/挖掘。 二、大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; - 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 阅读全文
posted @ 2021-06-17 15:38
宝哥大数据
阅读(456)
评论(0)
推荐(0)
摘要:
一、用户画像概述 二、项目功能及架构 三、项目开发 3.0、业务数据调研及ETL 3.1、规则标签 标签存储与计算 标签模型计算 标签模型:用户性别标签 标签开发:规则匹配型标签 标签模板(Template) 属性配置文件 3.2、统计标签 SparkSQL自定义外部数据源 标签开发:统计型标签 标 阅读全文
posted @ 2021-06-17 15:32
宝哥大数据
阅读(373)
评论(0)
推荐(0)

浙公网安备 33010602011771号