spark学习10_2之spark.ml

概念
API使用
资料

从 Spark 2.0 开始， spark.mllib 包中的基于 RDD 的 API 已经进入了维护模式。Spark 的主要的机器学习 API 现在是 spark.ml 包中的基于 DataFrame 的 API 。

所以除了Mllib之外spark里面还有一个ml库，也是用来支持机器学习的。今天也是粗略地学了一下这个库的API的使用，里面算法具体怎么干的，今天没有学。

概念

DataFrame

spark.ml这个库的API是基于DataFrame的，但是我不了解DataFrame。查到的技术博客里面说DataFrame就像是矩阵，不过每一个单元的元素可以不只是数字也可以是字符串，换句话说就是像excel表。
在DataFrame这个数据结构里列名叫columns行名叫index。

Word2Vec

这是一个模型，这个模型干的事怎么说呢，就顾名思义，把单词word转化成(to)向量(vector)。
为了了解这个东西的意思，教程里的解释是这样的

Word2Vec 是一个估计器(拟合一个 DataFrame 来产生转换器的算法)，它采用一系列代表文档的词语来训练 Word2Vec 模型。这个模型把每一个词语映射到一个固定大小的向量。Word2Vec 模型使用文档中每个词语的平均数来把文档转换为向量，把这个向量作为预测特征用来计算文档相似度。

我找到一篇解释这个模型是怎么做到把单词转换成向量的博客：通俗理解word2vec
说实话，人家讲的挺清楚，我没有必要复制了。

朴素贝叶斯算法

朴素贝叶斯算法（Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。
朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化，即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重，也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果，但是在实际的应用场景中，极大地简化了贝叶斯方法的复杂性。

它具体干的事是，对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，在没有其它可用信息下，会选择条件概率最大的类别作为这个待分类项所对应的类别。

二分均值K算法（这个我连简介都没懂）

二分 K 均值算法是一种层次聚类算法，使用自顶向下的逼近：所有的观察值开始是一个簇，递归地向下一个层级分裂。分裂依据为选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目 k 为止。二分 K 均值常常比传统 K 均值算法有更快的计算速度，但产生的簇群与传统 K 均值算法往往也是不同的。

API使用

Word2Vec

首先要引入3个包，分别是对Word2Vec模型本身的支持，以及向量和sparkSQL的支持

import org.apache.spark.ml.feature.Word2Vec
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row

然后要生成一个DataFrame，下面是用三句话(字符串)，创建一个RDD，然后用toDF方法把这个RDD转化成DataFrame

val documentDF = spark.createDataFrame(Seq(
  "Hi I heard about Spark".split(" "),
  "I wish Java could use case classes".split(" "),
  "Logistic regression models are neat".split(" ")
).map(Tuple1.apply)).toDF("text")

再然后创建一个word2vec对象，要根据我们刚才的DataFrame（就那三句话）来给这个对象指定各个参数。
指定完成之后，把那个DataFrame传给新创建的Word2vec对象进行学习。

val word2Vec = new Word2Vec()
  .setInputCol("text")
  .setOutputCol("result")
  .setVectorSize(3)
  .setMinCount(0)

val model = word2Vec.fit(documentDF)

上面完成之后，还没有完成把单词转化成向量，要让模型调用transform方法，然后调用返回的结果才是单词转向量的结果。

val result = model.transform(documentDF)
result.collect().foreach { case Row(text: Seq[_], features: Vector) =>println(s"Text: [${text.mkString(", ")}] => \nVector: $features\n") }

最后打印出来结果是这样的，说真的，我挺好奇这是怎么做的，后面一定要学一下。

朴素贝叶斯

这里要导入两个包，第一行那个就是朴素贝叶斯的包，第二行那个是用来评估结果的准确率的。

import org.apache.spark.ml.classification.NaiveBayes
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

然后这里的数据源用的是官方提供的数据，位置在：/opt/spark-2.4.4-bin-hadoop2.7/data/mllib/sample_libsvm_data.txt，非常非常大
然后导入数据，再创建对象
对象里把数据分为两份，其中 70% 作为训练数据集，30% 作为测试数据集

val data = spark.read.format("libsvm").load("/opt/spark-2.4.4-bin-hadoop2.7/data/mllib/sample_libsvm_data.txt")
val Array(trainingData, testData) = data.randomSplit(Array(0.7, 0.3), seed = 1234L)

然后做法和上一个类似，也是调用相应的类，然后用fit方法传回一个模型。这里面用的是刚才那个70%的训练数据。
模型再用transform方法执行真正的算法，并返回一个预测结果。

val model = new NaiveBayes().fit(trainingData)
val predictions = model.transform(testData)
predictions.show()

评估准确度的代码是这个样子的：

val evaluator = new MulticlassClassificationEvaluator()
  .setLabelCol("label")
  .setPredictionCol("prediction")
  .setMetricName("accuracy")

val accuracy = evaluator.evaluate(predictions)

println(s"Test set accuracy = $accuracy")

二分均值K

这个算法需要引入的包是：
clustering.BisectingKMeans

import org.apache.spark.ml.clustering.BisectingKMeans

数据文件加载，并生成模型

val dataset = spark.read.format("libsvm").load("/opt/spark-2.4.4-bin-hadoop2.7/data/mllib/sample_kmeans_data.txt")
val bkm = new BisectingKMeans().setK(2).setSeed(1)
val model = bkm.fit(dataset)

代价评估

val cost = model.computeCost(dataset)
println(s"Within Set Sum of Squared Errors = $cost")

训练结果

println("Cluster Centers: ")
val centers = model.clusterCenters
centers.foreach(println)

资料

DataFrame
Pandas 库之 DataFrame
通俗理解word2vec
word2vec笔记和实现
 Spark RDD DF DS 的区别与联系
 朴素贝叶斯算法的理解与实现
 Bisecting KMeans (二分K均值)算法讲解及实现

posted @ 2020-02-01 16:09 ltl0501 阅读(385) 评论(0) 收藏举报

刷新页面返回顶部

ltl0501

spark学习10_2之spark.ml

概念

DataFrame

Word2Vec

朴素贝叶斯算法

二分均值K算法（这个我连简介都没懂）

API使用

Word2Vec

朴素贝叶斯

二分均值K

资料

公告