随笔分类 -  spark

摘要:引言 品类是指产品的分类,大型电商网站品类分多级,咱们的项目中品类只有一级,不同的公司可能对热门的定义不一样。我们按照每个品类的点击、下单、支付的量来统计热门品类。如 鞋 点击数 下单数 支付数 衣服 点击数 下单数 支付数 电脑 点击数 下单数 支付数 本项目需求优化为:先按照点击数排名,靠前的就 阅读全文
posted @ 2021-02-01 19:55 littlemelon 阅读(545) 评论(0) 推荐(0)
摘要:引言 通过学习RDD,并了解和掌握RDD的转换算子和行动算子。现在对所有能实现wordCount的功能的算子总结一下。 正文 用了8个方法来实现wordCount。通过对比,发现有些方法类似。运行结果读者自行验证 代码 package com.xiao.spark.core.wc import or 阅读全文
posted @ 2021-01-29 22:23 littlemelon 阅读(661) 评论(0) 推荐(0)
摘要:数据准备: agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔。 数据截图: 需求描述: 统计出每一个省份每个广告被点击数量排行的 Top3 需求分析: 1、拆分数据,将每条数据转化为 > ((省份,广告),1) 2、对相同的key进行累加求和 3、重新拆分数据,将数据由((省 阅读全文
posted @ 2021-01-28 13:47 littlemelon 阅读(265) 评论(0) 推荐(0)
摘要:引言 本文主要讲一些双value类型的函数,主要用于两个RDD的操作 正文 intersection 函数签名:def intersection(other: RDD[T]): RDD[T] 函数说明:对源 RDD 和参数 RDD 求交集后返回一个新的 RDD 解释:必须要求两个RDD的数据类型相同 阅读全文
posted @ 2021-01-28 13:38 littlemelon 阅读(208) 评论(0) 推荐(0)
摘要:引言 接上一篇博客 正文 sample 函数签名:def sample(withReplacement: Boolean,fraction: Double,seed: Long = Utils.random.nextLong): RDD[T] 函数说明:根据指定的规则从数据集中抽取数据 案例:随机抽 阅读全文
posted @ 2021-01-27 11:29 littlemelon 阅读(126) 评论(0) 推荐(0)
摘要:引言 RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value类型,本文主要讲一些Value 类型 正文 资源路径和资源内容 map ###函数签名:def map[U: ClassTag](f: T ⇒ U): RDD[U] ###函数说明:将处 阅读全文
posted @ 2021-01-25 17:17 littlemelon 阅读(515) 评论(0) 推荐(0)