ML.Net机器学习基本知识
安装依赖包:
- Microsoft.ML : ML.Net的主要依赖包, 一般安装这个就够了, 提供标准算法库和ML context和pipeline的核心类库
- Microsoft.Extensions.ML , 为ML包支持依赖注入
- Microsoft.ML.FastTree, 提供随机森林相关的回归算法
- Microsoft.ML.LightGbm, 提供 LightGbm 梯度提升集成算法
- Microsoft.ML.OnnxTransformer, 提供导入 onnx 模型能力
- Microsoft.ML.OnnxConverter, 提供导出 onnx 模型能力
- Microsoft.ML.AutoML, 实现自动超参调优
除了常规的机器学习外, Microsoft.ML 可基于下面深度学习框架, 搭建常用的深度神经网络:
- TorchSharp
- TensorFlow.NET
自定义模型的 ModelInput 类:
ModelInput 作为模型输入数据 IDataView 的 Row class, 为模型提供 Feature列(1个或多个) 和 Label(1个).
两个特性的作用:
- [ColumnName] 用来设定列名, 如果没有使用该特性, 模型将按照C#字段名来使用该列.
- [LoadColumn] 用来设定该类对应 Txt 的第几个列, 需要从 0 开始.
如前所述, ModelInput将为模型提供 Feature 列(1个或多个) 和 Label(1个). 其中 Label 列将作为模型train data的结果标签, 对于回归类模型, Label 字段应该为 float, 对于分类模型, Label 列可以使字符串或数值类型, 如果是字符串型, 需要在pipeline中将它转成数值型. Label 列可以在 ModelInput 类字段上使用 ColumnName("Label") 特性来设定, 也可以在 pipeline 中使用 Context.Transforms.CopyColumns() 来动态指定 Label 对应的字段名.
模型还需要 Features 信息, 不能直接使用C#特性来设定, 需要在Pipeline中用代码设定.
public class ModelInput
{
[ColumnName("Temperature"), LoadColumn(0)]
public float Temperature { get; set; }
[ColumnName("Luminosity"), LoadColumn(1)]
public float Luminosity { get; set; }
[ColumnName("Infrared"), LoadColumn(2)]
public float Infrared { get; set; }
[ColumnName("Distance"), LoadColumn(3)]
public float Distance { get; set; }
[ColumnName("CreatedAt"), LoadColumn(4)]
public string CreatedAt { get; set; }
[ColumnName("Label"), LoadColumn(5)]
public string Source { get; set; }
}
自定义回归模型的 ModelOutput 类:
针对不同的 estimator, ModelOuput 需要有不同的 IDataView Row class, 可以使用 [ColumnName()] 特性为C#字段设定成estimator要求的列名.
Regression
- Label: Original regression value of the example.
- Score: Predicted regression value.
Binary Classification
- Label: Original Label of the example.
- Score: Raw score from the learner (e.g. value before applying sigmoid function to get probability).
- Probability: Probability of being in certain class
- PredictedLabel: Predicted class.
Multi-class Classification
- Label: Original Label of the example.
- Score: Its an array whose length is equal to number of classes and contains probability for each class.
- PredictedLabel: Predicted class.
Clustering
- Label: Original cluster Id of the example.
- Score: Its an array whose length is equal to number of clusters. It contains square distance from the cluster centeriod.
- PredictedLabel: Predicted cluster Id.
public class ModelOutput
{
[ColumnName("Score")]
public float TotalStockQty;
}
Pipeline 的构成
- Pipeline 包含一系列前置 transformers 和一个 estimator 和一系列后置的 transformers
- 前置 transformer 完成数据的预处理过程, transformer 的输入和输出都是 IDataView 数据. IDataView 数据是一个带有 schema 信息的、 immutable、lazy loading的高效数据容器. 通常预处理包括: 删除某些列、 Categorical 矢量化 、Label 列数值化、归一化处理、 聚合 Features 。
- estimator 用作模型训练.
- 后置 transformer 完成数据的后处理过程, transformer 的输入和输出都是 IDataView 数据, 后处理过程不像前处理过程复杂, 很多情况下没有后处理过程, 除非前处理过程中包含了Label 列数值化, 这时候我们需要加一个后处理过程将 PredictedLabel 列进行可读性处理, 即将数值key转换成value。
Pipeline 的预处理
Label 列数值化: 对于分类模型, Label 往往是一个类别字符串, 比如颜色分类或产品分类, 在训练的Pipeline中需要将它们做数值化. 调用的函数是 Transforms.Conversion.MapValueToKey() , 该函数会为 Label 的所有可能值分配一个唯一正整数, 在训练过程中, 会使用该正整数值来代替原始值.
如果预处理阶段做了 Label 列数值化处理, 通常在pipeline后处理中要增加一个 MapKeyToValue() 逆向转换, 以便使用该模型做推理时候, 输出的label具有更好的可读性, 如果推理结果出现了未知类别, 默认会分配0值.
mlContext.Transforms.Conversion.MapValueToKey("Label")
OneHot Encoding(即Categorical 信息矢量化)
对于 ModelInput 类, 如果要将某个文本字段被我们识别需要作为一个特征 Feature, 通常这类文本可以看做是 Categorical 类别信息, 我们需要先将类别信息做矢量化, 然后再进行 Features 聚合前置处理, 以便机器学习 estimator 能处理这些特征.
一般 Categorical 字段有两种取值:
- 一种取值为 "abc" 这样的字段
- 另一种是代表编号的数值字段, 编号虽然是数值, 但它并不是数学上的数值, 因为无法做大小比较, 无法做数学运算.
矢量化方式通常是采用 One-hot encoding 编码, 经过这样的编码后, 它们在内存中被映射成一个稀疏的数值矩阵.
mlContext.Transforms.Categorical.OneHotEncoding(outputColumnName: "label_hotencoded", inputColumnName: "label")
特征值归一化处理
-
背景: 不同特征的取值范围差异可能很大, 比如有的特征其中范围是[0,1], 有的特征是[0,1000]之间; 或者特征值的单位不同, 一个是质量一个是长度, 可以在模型训练之前, 先对特征值进行归一化处理,尽量将各个特征的参数值规范到一个合理的差异水平, 避免因为个别特征值太大主导模型训练.
-
模型类型:
(1) 对于线性模型 SdcaRegressionTrainer、SdcaMaximumEntropyTrainer 等, 这些模型对于特征值大小比较敏感, 如果特征值取值范围差异过大, 模型权重可能会失衡, 会影响到模型效果.(2) 对于决策树类模型, 它们是通过特征分裂进行决策的, 并不直接依赖特征值, 所以一般不需要做归一化, 当然也可以通过归一化加速模型收敛速度.
(3) 对于NLP类模型, 无需进行归一化处理.
-
归一化算法
(1) Min-Max Normalization , 将特征统一缩放到 [0,1] 之间. 适用于数值差异较大的情况, 但它对于 outliers 数值很敏感, 此时可以考虑使用其他归一化算法, 或者提前将这些 outliers 过滤掉.
(2) Mean Variance Normalization, 将均值设定为0, 标准差设定为1, 适用于正态分布的数据.
(3) Logarithmic Scaling 指数缩放算法, 将特征值有数量级差异, 适用于数据差异非常大, 呈指数增长.
(4) Binning Normalization, 将连续值转换成离散值. -
强调:
(1) 归一化操作仅仅需要在训练的pipeline中设置, 完成模型训练后, 归一化的操作已经保存到模型参数中了, 所以在推理时候无需显式做归一化处理, 模型在推理时自动会应用归一化算法.
(2) 归一化操作放在pipeline
Features 列向量化前置处理
如果Features列是自然语言, 需要将文本转换成特征向量.
mlContext.Transforms.Text.FeaturizeText(outputColumnName: "Features", inputColumnName: "SentimentText")
Features 聚合前置处理
如果我们的 ModelInput 类有多个 feature 列, 则需要将这些列聚合到一个名称 Features 列, 这样 estimator 就知道需要将哪些列作为特征来对待.
mlContext.Transforms.Concatenate("Features",
new string[] { "Temperature", "Luminosity", "Infrared", "Distance" })
Pipeline 的后处理
后置 transformer 完成数据的后处理过程, transformer 的输入和输出都是 IDataView 数据, 后处理过程不像前处理过程复杂, 很多情况下没有后处理过程, 除非前处理过程中包含了Label 列数值化, 这时候我们需要加一个后处理过程将 PredictedLabel 列进行可读性处理, 即将数值key转换成value。
mlContext.Transforms.Conversion.MapKeyToValue("PredictedLabel");
分析模型的特征重要度
在模型训练完毕, 通常我们需要了解各个特征的重要程度, 分析的目的有: (1) 理解模型是如何决策的, 尤其对于黑箱模型, 如随机森林和梯度提升树. (2) 排除无关或冗余的特征, 然后重新训练, 以提供模型的泛化能力.
常用方法
批量和单一推理
//对测试数据集进行批量预测.
var metrics = mlContext.Regression.Evaluate(model.Transform(testData), labelColumnName: "Target");
//使用 predictor单独一个数据进行预测.
var predictor = mlContext.Model.CreatePredictionEngine<IrisInput, IrisPrediction>(model);
var prediction = predictor.Predict(new IrisInput
{
SepalLength = 4.1f,
SepalWidth = 0.1f,
PetalLength = 3.2f,
PetalWidth = 1.4f
});
当模型训练完成后, 获取混淆矩阵
var metrics = mlContext.MulticlassClassification.Evaluate(predictions, Label, Score, PredictedLabel);
Console.WriteLine(metrics.ConfusionMatrix.GetFormattedConfusionTable());
当模型训练完成后, 可以获取模型的权重和偏置项.
VBuffer <float>[] weights = default;
model.Model.GetWeights(ref weights, out int numClasses);
var biases = model.Model.GetBiases();
输出特征重要性
var featureImportance = mlContext.Regression.PermutationFeatureImportance(
model.LastTransformer,
transformedTestData,
labelColumnName: "Label");
// 输出特征重要性分数, 分数越接近0的特征越不重要
for (int i = 0; i < featureImportance.Length; i++)
{
Console.WriteLine($"Feature {i}: Importance = {featureImportance[i].Rms.Mean:F4}");
}
关于交叉验证
最常用的是 5 折交叉验证法, 因为它符合20:80数据分割规则. 5折交叉验证的程是, 先将数据集分成 5 等份, 然后开始 5 次验证过程, 所以交叉验证是比较耗时的.
交叉验证完整过程:
- 第1次验证: 将第1等份数据作为验证数据集, 其他4份作为训练数据集, 先训练后验证, 得出第1次的验证.
- 第2次验证: 将第2等份数据作为验证数据集, 其他4份作为训练数据集, 先训练后验证, 得出第2次的验证.
- 第3次验证: 将第3等份数据作为验证数据集, 其他4份作为训练数据集, 先训练后验证, 得出第3次的验证.
- 第4次验证: 将第4等份数据作为验证数据集, 其他4份作为训练数据集, 先训练后验证, 得出第4次的验证.
- 第5次验证: 将第5等份数据作为验证数据集, 其他4份作为训练数据集, 先训练后验证, 得出第5次的验证.
- 最后将5次验证的指标做平均/方差计算得到交叉验证的指标.
评估模型
https://www.todaysoftmag.com/article/3286/machine-learning-101-with-microsoft-ml-net-part-1-3
https://www.todaysoftmag.com/article/3290/machine-learning-101-with-microsoft-ml-net-part-2-3
https://rubikscode.net/2021/04/12/machine-learning-with-ml-net-evaluation-metrics/
https://learn.microsoft.com/en-us/dotnet/machine-learning/resources/metrics
Auto ML
https://accessibleai.dev/post/ml_net-video-game-classification/
https://learn.microsoft.com/en-us/dotnet/machine-learning/automate-training-with-model-builder#how-long-should-i-train-for

浙公网安备 33010602011771号