摘要: 这篇文章中主要记录如何分析样本间相似性的内容,相似性分析在分类算法(如K最邻近分类)和聚类任务中会涉及到。相似性分析基于样本属性取值,因此对于样本属性类型及其取值的特征也有必要说明。 1.数据测量及属性分类 测量某个对象得到数据的过程实质上是描述该对象的属性(特征)、并将该属性映射到某个值上,在这些 阅读全文
posted @ 2019-05-18 16:13 hgz_dm 阅读(1069) 评论(0) 推荐(0) 编辑
摘要: (转载自作者 “Matrix67原创” 的文章,链接为:http://www.matrix67.com/blog/archives/105) 你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC 阅读全文
posted @ 2019-05-18 16:11 hgz_dm 阅读(1855) 评论(0) 推荐(0) 编辑
摘要: (文章转载自https://www.cnblogs.com/yangsy0915/p/5162449.html) 抽样调查的领域涉及如何用有效的方式得到样本。这些调查都利用了问卷,而问卷的设计则很有学问。它设计如何用词、问题的次序和问题的选择与组合等等。涉及包括心理学、社会学等知识。问题的语言应该和 阅读全文
posted @ 2019-05-18 16:08 hgz_dm 阅读(1245) 评论(0) 推荐(0) 编辑
摘要: 基于规则的分类是一种比较简单的分类技术,下面从以下几个方面对其进行介绍 1.任务 所有的分类技术的任务都是利用数据集训练出分类器,然后为每条记录贴上标签,对其进行分类,基于规则的分类任务也是如此。 2.结构 基于规则的分类使用了一组的规则来对记录进行分类,其将这些规则组合起来,形成了如下所示结构 ​ 阅读全文
posted @ 2019-05-18 15:41 hgz_dm 阅读(978) 评论(0) 推荐(0) 编辑
摘要: 大数据环境下的假设检验问题比较复杂,目前还未详细深入了解,但其思想还是源于经典假设检验理论,故在此先对经典假设检验理论记录一二。 1.假设检验方法的作用 实际问题中很多时候需要通过样本去作推断,由于样本带有随机性,基于我们对总体的认知,有时并不确定该推断是否可信(或者说可靠),或者说偏差的程度如何, 阅读全文
posted @ 2019-05-18 15:38 hgz_dm 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 当我们得到数据模型后,该如何评价模型的优劣呢?之前看到过这样一句话 :“尽管这些模型都是错误的,但是有的模型是有用的”,想想这句话也是挺有道理的!评价和比较分类模型时,关注的是其泛化能力,因此不能仅关注模型在某个验证集上的表现。事实上,如果有足够多的样本作为验证集来测试模型的表现是再好不过的,但即使 阅读全文
posted @ 2019-05-18 15:32 hgz_dm 阅读(1546) 评论(0) 推荐(1) 编辑
摘要: 决策树模型很早就出现了,当我们使用一连串的 “if...else...” 语句时,就已经具备了决策树的思想了,不过当真正去构建决策树时,就要考虑哪个先 if、哪个后 if,采用什么样的标准来支持我们选定先 if的属性等,这部分内容在《分类:决策树——树的生长》中已经说明了。早期的决策树算法(如ID3 阅读全文
posted @ 2019-05-18 15:19 hgz_dm 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 本篇是决策树系列的第二篇,介绍一下决策树的剪枝过程。过拟合是决策树构建过程中常见的问题,信息失衡、噪声等问题都会导致过拟合,剪枝则是提高决策树模型泛化能力的重要手段,下面对常用的剪枝方法作一些介绍。 1. 预剪枝 决策树系列第一篇《分类:决策树——树的生长》中提到过,树的生长是一种“完全”式的生长, 阅读全文
posted @ 2019-01-19 19:07 hgz_dm 阅读(1103) 评论(0) 推荐(0) 编辑
摘要: 分类算法非常适合预测或描述标签为二元或标称类型的数据集,对于标签为序数类型的数据集,分类技术则不太有效,因为分类技术不考虑隐藏在序数中的“序”关系,对于标签其他形式的联系如子类与超类(包含的关系),分类技术也不太适合。 本文是分类模型系列的初篇,先介绍最基本的分类/回归模型——决策树模型。决策树分类 阅读全文
posted @ 2019-01-19 19:06 hgz_dm 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 对于技术应用人员来说,我们更看重方法的应用,但有时候对知识的背景做一些了解,我觉得还是挺有必要的,能帮助我们理解一些东西。这篇博文里,不会呈现任何计算公式,只是讨论一下贝叶斯学派与频率学派之间的问题。 贝叶斯学派与频率学派是当今数理统计学的两大学派,基于各自的理论,在诸多领域中都起到了重要作用。自2 阅读全文
posted @ 2019-01-19 19:04 hgz_dm 阅读(2173) 评论(0) 推荐(0) 编辑