Spark MLlib 基础:机器学习库总览与数据准备

知识点:
MLlib 组成:基础统计、分类、回归、聚类、协同过滤、特征工程
数据类型:Vector(稠密向量、稀疏向量)、LabeledPoint(带标签的数据)
特征工程基础:StringIndexer、OneHotEncoder、VectorAssembler
练习:
创建稠密向量和稀疏向量,构建 LabeledPoint:

from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import LabeledPoint

稠密向量:[1.0, 2.0, 3.0]

dv = Vectors.dense([1.0, 2.0, 3.0])

稀疏向量:维度5,非零值索引[0,2],值[1.0,3.0]

sv = Vectors.sparse(5, [0, 2], [1.0, 3.0])

带标签的数据(标签1.0,特征稠密向量)

lp = LabeledPoint(1.0, dv)
对鸢尾花数据进行特征编码(字符串标签转数值,特征合并)
易错:
MLlib 的Vector需从pyspark.ml.linalg导入,区别于旧版pyspark.mllib.linalg
LabeledPoint是监督学习的核心数据类型,标签为数值型

posted @ 2026-02-05 12:06  再报错就堵桥0  阅读(4)  评论(0)    收藏  举报