随笔分类 -  机器学习

该部分知识来源于李航《统计学习方法》,Tom M. Mitchell 的machine learning 课程pdf,笔记部分为个人理解标记。
摘要:1 基本表述 当$Y$是离散变量,$X=(X_1,X_2,...,X_n)$包含离散变量或连续变量,或两者都有时,可以用逻辑回归来学习函数$f:X \to Y$。逻辑回归先假设出了条件分布$P(Y|X)$的参数形式,然后直接用训练数据估计出其参数。当$Y$是布尔型变量(只包含两个类别)时,$P(Y| 阅读全文
posted @ 2020-12-01 23:01 unuliha 阅读(484) 评论(0) 推荐(0)
摘要:一句话描述:基于特征,逐步对实例进行分类,类似if-then规则集合的树形结构模型。主要包括特征选择、决策树的生成、决策树的修剪等过程。 1 概述 决策树的学习是一个递归地选择最优特征,划分特征空间,构建决策树的过程。首先,构建根节点,即选择一个最优特征,按这一特征分割后,各个子集有一个在当前条件下 阅读全文
posted @ 2020-11-27 15:37 unuliha 阅读(241) 评论(0) 推荐(0)
摘要:一句话描述:在特征条件独立的情况下,学习(X,Y)的联合概率分布,给定新的X,计算后验概率最大的Y作为其输出。 基本方法 前提假设: 条件独立假设指用于分类的特征在类确定的情况下是条件独立的。 用于分类的特征的分布不受类别变量的影响。 用于分类的特征向量均为布尔型随机变量。 过程: 利用训练数据估计 阅读全文
posted @ 2020-11-25 22:57 unuliha 阅读(149) 评论(0) 推荐(0)
摘要:模型选择的目的是使学到的模型对已知数据和未知数据都有较好的预测能力,同时又要避免过拟合。所考察的指标主要是模型的训练误差及测试误差,模型的复杂度越高,训练误差越小,但测试误差先减小后增大。 训练误差和测试误差随模型复杂度变化趋势 过拟合是指模型的复杂度比真模型更高,模型选择就是选择测试误差最小的适当 阅读全文
posted @ 2020-11-25 21:12 unuliha 阅读(525) 评论(0) 推荐(0)