数据挖掘与算法第十次作业

1.理解分类与监督学习、聚类与无监督学习。

①简述分类与聚类的联系与区别。

Classification (分类)，对于一个classifier，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力。
Clustering (聚类)，简单地说就是把相似的东西分到一组，聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习。

②简述什么是监督学习与无监督学习。

监督学习：通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。就是每次迭代开始前都有人为操控，比如限制条件或者数据处理。

无监督学习：直接对输入数据集进行建模，例如聚类。给个迭代方程，让它自己运行。

2.朴素贝叶斯分类算法实例

利用关于心脏情患者的临床数据集，建立朴素贝叶斯分类模型。

有六个分类变量(分类因子)：性别，年龄、KILLP评分、饮酒、吸烟、住院天数

目标分类变量疾病：–心梗–不稳定性心绞痛

新的实例：–(性别=‘男’，年龄<70, KILLP=‘I'，饮酒=‘是’，吸烟≈‘是”，住院天数<7)

最可能是哪个疾病？

演算过程：

3.编程实现朴素贝叶斯分类算法

利用训练数据集，建立分类模型。

输入待分类项，输出分类结果。

可以心脏情患者的临床数据为例，但要对数据预处理。

posted on 2018-11-18 21:54 Z诗M7642 阅读(163) 评论(0) 收藏举报

数据挖掘与算法 第十次作业

数据挖掘与算法第十次作业