08 2019 档案
摘要:把超过某一个数的拿出来collect
阅读全文
摘要:join是根据key做两张表全连接
阅读全文
摘要:class GFG(Lname: String, Tname: String, article: Int) { def show() { println("Language name: " + Lname); println("Topic name: " + Tname); println("Tot
阅读全文
摘要:creates Map val weights = Map("cat" -> 10, "elephant" -> 200000) val weight = weights("elephant") println(weight) val colors = Map(("bird", "blue"), (
阅读全文
摘要:背景/来源/参考: 来自知乎王喆机器学习笔记《回顾Facebook经典CTR预估模型》,和推荐系统的局部更新(相反于全量更新)有关,《如何增强推荐系统模型更新的「实时性」?》 Facebook在2014发表的“Practical Lessons from Predicting Clicks on A
阅读全文
摘要://省略sc val arr = List(("A",1),("B",2),("A",2),("B",3)) val rdd = sc.parallelize(arr) val sortByKeyRDD = rdd.sortByKey() sortByKeyRDD.foreach(println) sc.stop # (A,1) # (A,2) # (B,2) # (B,3) #...
阅读全文
摘要:按Key进行分组, 输入 List(("A",1),("B",2),("A",2),("B",3)) 输出 然后对key进行个数统计 reduceByKeyt与groupByKey的区别? ,在对大数据进行复杂计算时,reduceByKey优于groupByKey。
阅读全文
摘要:按Key进行分组,使用给定的func函数聚合value值,
阅读全文
摘要:把一个pair里的values变成一个数组,然后k-v1 k-v2... 如果是mapValues会输出:【对比区别】 (mobin,List(22, male))(kpop,List(20, male))(lufei,List(23, male))
阅读全文
摘要:与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD中的元素经flatmap处理后可生成多个元素 val a = sc.parallelize(1 to 4, 2) val b = a.flatMap(x => 1 to x)//每个元素扩展 b.collect /* 结果 Array[Int] = Array( 1, 1, 2, 1, 2, 3, 1, 2, 3, 4)
阅读全文
摘要:从一个list变成 key value 自定义函数生成新的rdd 就是把key value变成另一个key value
阅读全文
摘要:RNN CNN 人老珠黄。全面拥抱Transformer。 对于自然语言处理领域来说,2018 年无疑是个收获颇丰的年头, 就是Bert 模型了。 一个是 Bert 这种两阶段的模式(预训练 + Finetuning) 必将成为 NLP 领域研究和工业应用的流行方法; 第二个是从 NLP 领域的特征
阅读全文
摘要:RNN、CNN、Transformer
阅读全文
摘要:需求: 对每个班级内的学生成绩,取出前3名。(分组取topn) 实现步骤: 遍历每组,获取每组的成绩 将一组成绩转换成一个数组缓冲 将数组缓冲按从大到小排序 对排序后的数组缓冲取其前三 打印输出
阅读全文
摘要:需求: 实现步骤:
阅读全文
摘要:案例需求: 1、对文本文件内的每个单词都统计出其出现的次数。2、按照每个单词出现次数的数量,降序排序。 步骤: 1.创建RDD 2.将文本进行拆分 (flatMap) 3.将拆分后的单词进行统计 (mapToPair,reduceByKey) 4.反转键值对 (mapToPair) 5.按键升序排序
阅读全文

浙公网安备 33010602011771号