11 分类与监督学习,朴素贝叶斯分类算法

1.理解分类与监督学习、聚类与无监督学习。

简述分类与聚类的联系与区别,简述什么是监督学习与无监督学习。

  分类 聚类
含义

把每一条记录归到对应的已知类别中。

将数据集划分为若干类,

使得类内之间的数据最为相似,

各类之间的数据相似度差别尽可能大。

联系 对于想要分析的目标点,都会在数据集中寻找离它最近的点,二者都用到了NN算法
区别

类别是已知的

常用KNN算法

有监督学习

类别是未知的

常用K-Means算法

无监督学习

监督学习:输入数据有标签,数据集的正确输出已知的情况下一类学习算法。因为输入和输出已知,意味着输入和输出之间有一个关系,监督学习算法就是要发现和总结这种“关系”。

应用:

根据人的照片预测图片中人的年龄。

对于肿瘤患者,预测肿瘤是恶性还是良性。

 

无监督学习:输入数据没有标签,对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。

应用:

新闻主题分组。

市场客户群体划分。

 

2.朴素贝叶斯分类算法 实例

利用关于心脏病患者的临床历史数据集,建立朴素贝叶斯心脏病分类模型。

有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数

目标分类变量疾病:

       –心梗

       –不稳定性心绞痛

新的实例:–(性别=‘男’,年龄<70, KILLP=‘I',饮酒=‘是’,吸烟≈‘是”,住院天数<7)

最可能是哪个疾病?

上传手工演算过程。

3.使用朴素贝叶斯模型对iris数据集进行花分类。 

尝试使用3种不同类型的朴素贝叶斯:

  • 高斯分布型
  • 多项式型
  • 伯努利型

并使用sklearn.model_selection.cross_val_score(),对各模型进行交叉验证。

完整代码

 1 from sklearn.datasets import load_iris
 2 from sklearn.naive_bayes import GaussianNB     # 高斯分布型
 3 from sklearn.naive_bayes import MultinomialNB  # 多项式型
 4 from sklearn.naive_bayes import BernoulliNB    # 伯努利型
 5 from sklearn.model_selection import cross_val_score
 6 import numpy as np
 7 
 8 # 提取数据
 9 iris = load_iris()
10 # 建立模型
11 gnb = GaussianNB()
12 mnb = MultinomialNB()
13 bnb = BernoulliNB()
14 # 训练模型
15 gnb_pre = gnb.fit(iris.data, iris.target)
16 mnb_pre = mnb.fit(iris.data, iris.target)
17 bnb_pre = bnb.fit(iris.data, iris.target)
18 # 分类预测
19 y_gnb = gnb_pre.predict(iris.data)
20 y_mnb = mnb_pre.predict(iris.data)
21 y_bnb = bnb_pre.predict(iris.data)
22 
23 print('GNB预测正确个数/总个数:{0}/{1}'.format(np.equal(y_gnb, iris.target).sum(), iris.data.shape[0]))
24 print('MNB预测正确个数/总个数:{0}/{1}'.format(np.equal(y_mnb, iris.target).sum(), iris.data.shape[0]))
25 print('BNB预测正确个数/总个数:{0}/{1}'.format(np.equal(y_bnb, iris.target).sum(), iris.data.shape[0]))
26 
27 # 交叉验证
28 gnb_scores = cross_val_score(gnb, iris.data, iris.target, cv=10)
29 print("GNB Accuracy:%.6f" % gnb_scores.mean())
30 mnb_scores = cross_val_score(mnb, iris.data, iris.target, cv=10)
31 print("MNB Accuracy:%.6f" % mnb_scores.mean())
32 bnb_scores = cross_val_score(bnb, iris.data, iris.target, cv=10)
33 print("BNB Accuracy:%.6f" % bnb_scores.mean())

 

posted @ 2020-05-07 08:40  linyanli  阅读(371)  评论(0编辑  收藏  举报