机器学习

用于评估分类模型性能，尤其在不平衡数据集中至关重要。

混淆矩阵：评估分类模型的基础。
- TP：预测为正，实际为正。
- FP：预测为正，实际为负。（误报）
- FN：预测为负，实际为正。（漏报）
- TN：预测为负，实际为负。
精确率：衡量模型的“准度”。
- 在所有预测为正例的样本中，有多少是真正的正例？
- Precision = TP / (TP + FP)
- 高精确率意义：模型非常严谨，它说“是”的时候，很有把握。关注减少误报。
召回率：衡量模型的“全度”。
- 在所有真实为正例的样本中，模型成功预测出了多少？
- Recall = TP / (TP + FN)
- 高召回率意义：模型非常敏感，能找出大部分目标。关注减少漏报。
权衡关系：精确率和召回率通常相互矛盾，提高一个往往会导致另一个下降。
F1-Score：精确率和召回率的调和平均数，用于综合评估模型性能。
- F1 = 2 * (Precision * Recall) / (Precision + Recall)

用于预测连续值的线性模型。

核心方程：y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ
- y：要预测的因变量。
- Xᵢ：用于预测的自变量/特征。
- β₀：截距。
- βᵢ：系数，表示特征 Xᵢ 对 y 的效应大小。
一元线性回归：
- 只有一个自变量 X。y = β₀ + β₁X
- 在二维空间中用一条直线拟合数据。
多元线性回归：
- 包含两个及以上自变量 X₁, X₂, ..., Xₙ。
- 核心优势在于系数的解释：βᵢ 表示在保持其他所有变量不变的情况下，Xᵢ 对 y 的独立影响（净效应）。这有助于避免虚假关联。

线性模型通过加权求和计算线性预测值 z，并通过不同激活函数应用于不同任务。

基础：z = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ
线性回归：
- 激活函数：无（恒等函数）。
- 输出：直接使用 z 作为预测的连续值。
二分类：
- 模型：逻辑回归。
- 激活函数：Sigmoid函数，将 z 映射到(0,1)区间，解释为属于正类的概率。
- 决策：概率 > 0.5 为正类，否则为负类。
多分类：
- 模型：Softmax回归。
- 激活函数：Softmax函数，为每个类别计算一个分数 zᵢ，并将其转化为概率分布。
- 决策：选择概率最高的类别作为预测结果。

当数据集中不同类别的样本数量差异巨大时产生的问题。

最简单的二分类线性分类器，是神经网络的基础。

posted on 2025-09-29 18:44 Ancientea 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

Ancientea