07 2017 档案
摘要:先build spark源码(按照官网,只有那一句话) 用IDEA打开pom.xml 在test文件夹内找到test方法,写出自己想要的,即可
阅读全文
摘要:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch
阅读全文
摘要:SparkSession spark = SparkSession.builder().master("local[2]").appName("MovieLens").getOrCreate();
阅读全文
摘要:协同过滤常用于推荐系统,这项技术旨在填补 丢失的user-item关联矩阵 的条目,spark.ml目前支持基于模型的协同过滤(用一些丢失条目的潜在因素在描述用户和产品)。spark.ml使用ALS(交替最小二乘法)去学习这些潜在因素。在spark.ml中的实现有以下参数: numBlocks:块的
阅读全文
摘要:综述: 在高层中,每个spark应用由一个运行用户主函数的driver program和执行各种集群上的parallel operations所组成。spark最主要的概念:RDD弹性分布式数据集,它是一个跨越“可并行操作集群”所有节点的基本分区的集合。RDDs可被多种方式创建:hadoop文件系统
阅读全文
摘要:原地址:http://spark.apache.org/docs/latest/quick-start.html 这篇指导对使用Spark提供了一个快速的介绍。我们首先介绍API,通过spark交互式shell(Python或Scala)。然后如何在JAVA、scala、python上写应用程序。
阅读全文