随笔分类 -  机器学习

摘要:题目 Solve the heart disease problem Here is a small dataset provided by the Cleveland Clinic Foundation for Heart Disease, which are several hundred ro 阅读全文
posted @ 2020-06-13 17:21 Tanglement 阅读(1962) 评论(0) 推荐(0)
摘要:题目 The task is to determine whether a tumor will be benign (harmless) or malignant (harmful) based on leukocyte (white blood cells) count and blood pr 阅读全文
posted @ 2020-05-05 11:00 Tanglement 阅读(340) 评论(0) 推荐(0)
摘要:一棵决策树包含一个根结点、若干内部结点和若干个叶节点;叶结点对应决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决 阅读全文
posted @ 2020-04-28 14:19 Tanglement 阅读(157) 评论(0) 推荐(0)
摘要:这篇博客讲解的不错[https://blog.csdn.net/guoyunfei20/article/details/78911721] 引自[https://blog.csdn.net/qiu_zhi_liao/article/details/90671932] 朴素贝叶斯是经典的机器学习算法之 阅读全文
posted @ 2020-04-27 22:06 Tanglement 阅读(292) 评论(0) 推荐(0)
摘要:很容易理解的一篇博客[http://blog.codinglabs.org/articles/pca tutorial.html] 在高维情形下出现的数据样本稀疏、距离计算困难等问题,称为“维数灾难”。 缓解维数灾难的一个重要途径是降维。将原始高维属性空间转变成一个低维子空间,子空间样本密度大幅提高 阅读全文
posted @ 2020-04-27 09:04 Tanglement 阅读(1004) 评论(0) 推荐(0)
摘要:工作原理 K Nearest Neighbor,KNN。是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测。通常,在分类任务中可使用投票法,选择K个样本中出现最多的类别标记作为预测结果;在回归任务中使用 阅读全文
posted @ 2020-04-26 12:40 Tanglement 阅读(383) 评论(0) 推荐(0)
摘要:EM学习笔记推荐[https://www.cnblogs.com/bigmoyan/p/4550375.html] 最大期望算法(Expectation maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于 阅读全文
posted @ 2020-04-25 19:02 Tanglement 阅读(878) 评论(0) 推荐(0)
摘要:聚类概念 在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律。此类学习任务中研究最多的是聚类。 聚类视图将数据中的样本分为若干个不相交的子集,每个子集称为一个簇。每个簇有各自的性质。 聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可以作为 阅读全文
posted @ 2020-04-24 19:52 Tanglement 阅读(189) 评论(0) 推荐(0)
摘要:找到一篇很好的SVM学习笔记[https://blog.csdn.net/Revendell/article/details/84674024],良心推荐。 在样本空间中,划分超平面可通过线性方程来描述: 其中w是法向量决定了超平面的方向,b为位移项,决定超平面与原点之间的距离。 支持向量 距离超平 阅读全文
posted @ 2020-04-23 10:52 Tanglement 阅读(256) 评论(0) 推荐(0)
摘要:引自[https://www.cnblogs.com/czdbest/p/5771500.html] 对p(x|y)建模。根据大象的特征学习出一个大象模型,根据狗的特征学习出狗的模型,对于新的样本,将特征分别放到两个模型,哪个概率大,就确定是哪种动物。 p(x|y)建模后,用贝叶斯定理,可以算出p( 阅读全文
posted @ 2020-04-22 16:14 Tanglement 阅读(125) 评论(0) 推荐(0)
摘要:只是学习笔记,杂乱。 在[https://blog.csdn.net/Cdd2xd/article/details/75635688]有更好的归纳和解释。 基本形式 线性模型,具有更好的可解释性,每个参数有表示的意义。 线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。 要训练w使得代价函 阅读全文
posted @ 2020-04-21 23:12 Tanglement 阅读(485) 评论(0) 推荐(0)