上一页 1 2 3 4 5 6 7 ··· 17 下一页
摘要: 前期工作 scala 一、介绍 1.1、RDD介绍 1.2、缓存策略 cache persist, StorageLevel Lineage , 如果Lineage过长,为了容错,就需要进行缓存或者checkpoint 宽窄依赖 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主 阅读全文
posted @ 2021-06-17 15:40 宝哥大数据 阅读(75) 评论(0) 推荐(0)
摘要: 一、大数据的三个发展方向 平台搭建/优化/运维/监控 大数据开发/设计/架构 数据分析/挖掘。 二、大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; - 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 阅读全文
posted @ 2021-06-17 15:38 宝哥大数据 阅读(456) 评论(0) 推荐(0)
摘要: 一、用户画像概述 二、项目功能及架构 三、项目开发 3.0、业务数据调研及ETL 3.1、规则标签 标签存储与计算 标签模型计算 标签模型:用户性别标签 标签开发:规则匹配型标签 标签模板(Template) 属性配置文件 3.2、统计标签 SparkSQL自定义外部数据源 标签开发:统计型标签 标 阅读全文
posted @ 2021-06-17 15:32 宝哥大数据 阅读(373) 评论(0) 推荐(0)
摘要: ShuffleManager负责管理本地以及远程的block数据的shuffle操作。 ShffuleManager的创建是在SparkEnv中。 2.1.6.1、在本人的spark版本中(2.1.1)只有SortShuffleManger, 在spark1.2之前还有HashShuffleMana 阅读全文
posted @ 2019-04-01 23:02 宝哥大数据 阅读(208) 评论(0) 推荐(0)
摘要: SparkEnv中创建MapOutputTracker def registerOrLookupEndpoint( name: String, endpointCreator: => RpcEndpoint): RpcEndpointRef = { if (isDriver) { logInfo(" 阅读全文
posted @ 2019-03-30 10:20 宝哥大数据 阅读(263) 评论(0) 推荐(0)
摘要: Broadcast是分布式的数据共享,由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用Dataset、常用数据结构 通过SparkContext.broadcast广播一个Broadcast, 实际调用的是SparkEnv的BroadMana 阅读全文
posted @ 2019-03-30 00:10 宝哥大数据 阅读(477) 评论(0) 推荐(0)
摘要: 创建序列化器,序列化管理器,closureSerializer //通过反射创建序列化对象 // Create an instance of the class with the given name, possibly initializing it with our conf def insta 阅读全文
posted @ 2019-03-29 23:59 宝哥大数据 阅读(294) 评论(0) 推荐(0)
摘要: 感觉这篇文章不错 2.1.2、创建RpcEnv - RpcEndpoint - RpcEndpointRef val systemName = if (isDriver) driverSystemName else executorSystemName val rpcEnv = RpcEnv.cre 阅读全文
posted @ 2019-03-27 22:06 宝哥大数据 阅读(259) 评论(0) 推荐(0)
摘要: SparkDriver 用于提交用户的应用程序, 一、SparkConf 负责SparkContext的配置参数加载, 主要通过ConcurrentHashMap来维护各种`spark.*`的配置属性 class SparkConf(loadDefaults: Boolean) extends Cl 阅读全文
posted @ 2019-03-26 23:44 宝哥大数据 阅读(779) 评论(0) 推荐(0)
摘要: 打开spark-shell,我们可以看到 function main() { if $cygwin; then stty -icanon min 1 -echo > /dev/null 2>&1 export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Djline 阅读全文
posted @ 2019-03-26 08:55 宝哥大数据 阅读(221) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 17 下一页