摘要: 特征选择 什么是特征选择? 从给定的特征集合中选择出相关特征子集的过程。 为什么进行特征选择? 1. 在现实任务中经常会遇到维数灾难问题,就是由于属性过多,如果可以选择出重要特征,使得后续学习过程仅需在一部分特征上构建模型,则可以减轻维度灾难问题。 2. 去除不相关的特征,可以降低学习任务的难度,只 阅读全文
posted @ 2020-04-21 17:48 huanghh 阅读(607) 评论(0) 推荐(0)
摘要: 不均衡样本集的处理 不均衡样本在分类时会出现问题, 本质原因是模型在训练时优化的目标函数和在测试时使用的评价标准不一致 。这种“不一致”可能是由于训练数据的样本分布于测试时期望的样本分布不一致(如训练集正负样本比例是1:99,而实际测试时期望的正负样本比例是1:1);也可能是由于训练阶段不同类别的权 阅读全文
posted @ 2020-04-20 11:03 huanghh 阅读(2723) 评论(0) 推荐(0)
摘要: 要取得 [a,b) 的随机整数,使用 (rand () % (b a))+ a; 要取得 [a,b] 的随机整数,使用 (rand () % (b a+1))+ a; 要取得 (a,b] 的随机整数,使用 (rand () % (b a))+ a + 1; 通用公式:a + rand () % n; 阅读全文
posted @ 2020-03-27 15:45 huanghh 阅读(3229) 评论(0) 推荐(1)
摘要: [TOC] 刷题中碰到二叉树的遍历,就查找了二叉树遍历的几种思路,在此做个总结。对应的LeetCode题目如下: "144.二叉树的前序遍历" , "94.二叉树中序遍历" , "145.二叉树的后续遍历" , "102.层次遍历" 接下来以前序遍历来说明 三种解法 的思想,后面中序和后续直接给出代 阅读全文
posted @ 2020-02-28 16:38 huanghh 阅读(2439) 评论(0) 推荐(1)
摘要: 聚类算法的评估 本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式图片均出自该书. 本博客仅为个人总结学习,非商业用途,侵删. 网址 http://www.ptpress.com.cn 数据的聚类依赖于实际需求, 同时也依赖于 数据的特征度量 以及 评估数据相似性 的方法。相比于监督 阅读全文
posted @ 2020-02-23 15:25 huanghh 阅读(2723) 评论(0) 推荐(1)
摘要: 高斯混合模型 本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式图片均出自该书. 本博客仅为个人总结学习,非商业用途,侵删. 网址 http://www.ptpress.com.cn 高斯混合模型(Gaussian Mixed Model, GMM) 是一种常见的聚类算法,与K均值算 阅读全文
posted @ 2020-02-20 18:24 huanghh 阅读(1516) 评论(0) 推荐(0)
摘要: K均值聚类算法 本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式图片均出自该书. 本博客仅为个人总结学习,非商业用途,侵删. 网址 http://www.ptpress.com.cn 聚类 是在事先并不知道任何样本类别标签的情况下, 通过数据之间的内在关系把样本划分为若干类别, 使 阅读全文
posted @ 2020-02-19 21:56 huanghh 阅读(908) 评论(0) 推荐(0)
摘要: 模型评估和参数调优 本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式图片均出自该书. 本博客仅为个人总结学习,非商业用途,侵删. 网址 http://www.ptpress.com.cn 1. 准确率 准确率 是指分类正确的样本占总样本个数的比例, 即 其中$n_{correct} 阅读全文
posted @ 2020-02-18 22:30 huanghh 阅读(4086) 评论(0) 推荐(0)
摘要: 降维,线性判别分析 本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式都是出自该书. 本博客仅为个人总结学习,非商业用途,侵删. 网址 http://www.ptpress.com.cn 目录 LDA推导 LDA扩展到多维度 PCA与LDA的区别 LDA原理 线性判别分析(Linea 阅读全文
posted @ 2020-02-18 17:13 huanghh 阅读(950) 评论(0) 推荐(0)
摘要: 本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式都是出自该书. 本博客仅为个人总结学习,非商业用途,侵删. 网址 http://www.ptpress.com.cn 目录: PCA最大方差理论 PCA最小平方误差理论 在机器学习中, 数据通常需要被表示成向量形式以输入模型进行训练。 阅读全文
posted @ 2020-02-18 15:26 huanghh 阅读(1380) 评论(0) 推荐(0)