Spark MLlib 基础：机器学习库总览与数据准备

知识点：
MLlib 组成：基础统计、分类、回归、聚类、协同过滤、特征工程
数据类型：Vector（稠密向量、稀疏向量）、LabeledPoint（带标签的数据）
特征工程基础：StringIndexer、OneHotEncoder、VectorAssembler
练习：
创建稠密向量和稀疏向量，构建 LabeledPoint：

from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import LabeledPoint

稠密向量：[1.0, 2.0, 3.0]

dv = Vectors.dense([1.0, 2.0, 3.0])

稀疏向量：维度5，非零值索引[0,2]，值[1.0,3.0]

sv = Vectors.sparse(5, [0, 2], [1.0, 3.0])

带标签的数据（标签1.0，特征稠密向量）

lp = LabeledPoint(1.0, dv)
对鸢尾花数据进行特征编码（字符串标签转数值，特征合并）
易错：
MLlib 的Vector需从pyspark.ml.linalg导入，区别于旧版pyspark.mllib.linalg
LabeledPoint是监督学习的核心数据类型，标签为数值型

posted @ 2026-02-05 12:06 再报错就堵桥0 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部

WMKQF

Spark MLlib 基础：机器学习库总览与数据准备

稠密向量：[1.0, 2.0, 3.0]

稀疏向量：维度5，非零值索引[0,2]，值[1.0,3.0]

带标签的数据（标签1.0，特征稠密向量）

公告