随笔分类 - 机器学习
机器学习实战笔记
摘要:PCA(Principal Component Analysis)与SVD 常用的降维方法有主成分分析(PCA),因子分析(Factor Analysis),独立成分分析(ICA)。 1. PCA优点:降低数据的复杂性;缺点:不一定非要用,且可能损失有用信息。适用于数值型数据 2. PCA算法概要:
阅读全文
摘要:Apriori算法 1. 优点:易编码实现;缺点:大数据集上较慢;适用于:数值型或标称型数据。 2. 关联分析:寻找频繁项集(经常出现在一起的物品的集合)或关联规则(两种物品之间的关联关系)。 3. 概念:支持度:数据集中包含某项集的记录所占的比例P(A);可信度(置信度):对某个关联规则$A\ri
阅读全文
摘要:K 均值聚类 1. 优点:易实现。缺点:可能收敛到局部最小值,大规模数据集上收敛较慢;适用于数值型数据。 2. K 均值聚类(找到给定数据集的k个簇) 算法流程 伪代码: 3. 评价指标:误差(实质上是数据点到簇质心的距离的平方值之和,SSE,Sum of Squared Error),以上K 均值
阅读全文
摘要:CART(classification and regression trees)树回归 1. 优点:可对 复杂 和 非线性 的数据建模;缺点:结果不易理解;适用于:数值型和标称型。 2. 构建树函数createTree()的伪代码: 3. 选择最好的划分方式 伪代码:用于回归树和模型树 pytho
阅读全文
摘要:回归 线性回归 设$\mathbf{x}^{\mathbf{T}}$向量第一列全为1,即$x_{0} = 1$,这样$x_{0}w_{0}$代表的是截距,$x_{1}w_{1}$是斜率: 设回归方程$y_{i}^{'} =\mathbf{x}_{\mathbf{i}}^{T}\mathbf{\ome
阅读全文
摘要:AdaBoost(Adaptive boosting)元算法 元算法:将不同分类器组合起来的结果,也叫集成方法。 AdaBoost优点:泛化错误率,易编码,可应用在大部分分类器,无参数调整;缺点:对离群点敏感;适用于:数值型和标称型。 自举汇聚法(Bootstrap aggregating, bag
阅读全文
摘要:朴素贝叶斯 (计算 每类下个特征的条件概率之积 和 该类概率 的乘积) 朴素贝叶斯的特点: | 特点 | 例 | | | | | 优点:数据较少时依然有效,可处理多类别问题; 缺点:对输入数据的准备方式比较敏感; 适用数据类型:标称。 | 文档分类(用关键词) 过滤垃圾邮件(某些关键词是否有侮辱性)
阅读全文
摘要:Logistic回归 | 优缺点 | 适用范围 | | | | | 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用于:数值型和标称型数据。 | 仅用于二分类 | 原理: 每个特征都乘以一个回归系数 将结果相加 总和代入到Sigmoid函数,得到范围在(0,1)中的数
阅读全文
摘要:决策树 (迭代地寻找划分样本集的最好特征,按该特征划分时信息增益最大) 决策树算法的优缺点 | 特点 | 例 | | | | | 优点:计算复杂度不高, 输出结果易于理解 ,对中间值的缺失不敏感, 可处理不相关特征数据。 缺点: 可能产生过度匹配的问题。 适用数据类型:数值型和标称型。 | 隐形眼镜
阅读全文
摘要:k 近邻算法(kNN) =============== 本质是(提取样本集中特征最相似数据(最近邻)的k个分类标签)。 | K 近邻算法的优缺点 | 例 | | | | | 优点:精度高,对异常值不敏感,无数据输入假定; 缺点:计算复杂度高,空间复杂度高; 适用于:数值型和标称型。 | 手写数字识别
阅读全文
摘要:1. kNN算法:就看测试向量距哪种更近,前 k 个最近的点中哪类多,预测结果就是哪类。 2. 决策树:选择用来划分数据集的最好特征(最大的$infoGain = baseEntropy newEntropy$),对该特征的每一个值创建一个子节点,递归至label完全相同或已用完所有特征。 3. 朴
阅读全文
摘要:混淆矩阵 | 预测结果 真实结果 | \+1(正例) | \ 1(反例) | | | | | | \+1 | 真正例(TP) | 伪反例(FN) | | \ 1 | 伪正例(FP) | 真反例(TN) | 正确率=TP/(TP+FP) 召回率=TP/(TP+FN) 假阳率=FP/(FP+TN) 真阳
阅读全文
摘要:机器学习基础 ============ 监督学习简介 监督学习的两个任务: 分类 和 回归分析 (预测数值型数据)。 分类思路 分类方法思路: 这个表至关重要,叫做特征向量表 | | 特征1 | 特征2 | … | 目的变量(类别) | |: :|: :|: :|: :|: :| | 实例1 | …
阅读全文
摘要:layout: post title: "机器学习实战笔记 6 支持向量机" categories: 机器学习 tags: 机器学习 支持向量机 SVM author: YunYuan mathjax: true 支持向量机 1. 优缺点:优点:泛化错误率低,计算开销不大,结果易解释;缺点:对参数调
阅读全文