03 2021 档案

摘要:1、键值对RDD的创建 2、常用的键值对RDD转换操作 3、一个综合实例 1、创建的两种方式 a、从文件加载 b、通过并行集合来创建 2、键值对转换操作 a、reduceByKey b、groupByKey() 3、keys 4、values 5、sortByKey 默认是升序排序,false是降序 阅读全文
posted @ 2021-03-31 12:57 dalege 阅读(215) 评论(0) 推荐(0)
摘要:一、RDD编程相关的就是Spark Core内容,spark的数据抽象就是RDD 二、创建RDD(两种方法) 1、从文件系统中加载数据 SparkContext通过textfile()读取数据生成,数据源可以是本地,hdfs,云端 a、从本地数据集 b、从hdfs生成 2、通过并行集合(数组) 调用 阅读全文
posted @ 2021-03-30 20:00 dalege 阅读(391) 评论(0) 推荐(0)
摘要:一名推荐工程师的“自我修养” 在我刚进入推荐系统这个行业的时候,我心中对这个行业的初步印象是,认为这个行业就是一群搞机器学习的研究者在不断地改进模型、训练模型和提高效果,所以,我卯足了劲要成为那个能提出新的模型架构,让全公司都采用我模型的“年轻人”。 当我工作了三年之后,我终于明白,模型的工作固然重 阅读全文
posted @ 2021-03-25 21:12 dalege 阅读(241) 评论(0) 推荐(0)
摘要:一、sprak简介 Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark作为大数据计算平台的后起之秀,在2 阅读全文
posted @ 2021-03-25 19:19 dalege 阅读(325) 评论(0) 推荐(0)