11 分类与监督学习，朴素贝叶斯分类算法

1.理解分类与监督学习、聚类与无监督学习。

简述分类与聚类的联系与区别，简述什么是监督学习与无监督学习。

	分类	聚类
含义	把每一条记录归到对应的已知类别中。	将数据集划分为若干类，使得类内之间的数据最为相似，各类之间的数据相似度差别尽可能大。
联系	对于想要分析的目标点，都会在数据集中寻找离它最近的点，二者都用到了NN算法
区别	类别是已知的常用KNN算法有监督学习	类别是未知的常用K-Means算法无监督学习

监督学习：输入数据有标签，数据集的正确输出已知的情况下一类学习算法。因为输入和输出已知，意味着输入和输出之间有一个关系，监督学习算法就是要发现和总结这种“关系”。

应用：

根据人的照片预测图片中人的年龄。

对于肿瘤患者，预测肿瘤是恶性还是良性。

无监督学习：输入数据没有标签，对无标签数据的一类学习算法。因为没有标签信息，意味着需要从数据集中发现和总结模式或者结构。

应用：

新闻主题分组。

市场客户群体划分。

2.朴素贝叶斯分类算法实例

利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。

有六个分类变量(分类因子)：性别，年龄、KILLP评分、饮酒、吸烟、住院天数

目标分类变量疾病：

–心梗

–不稳定性心绞痛

新的实例：–(性别=‘男’，年龄<70, KILLP=‘I'，饮酒=‘是’，吸烟≈‘是”，住院天数<7)

最可能是哪个疾病？

上传手工演算过程。

3.使用朴素贝叶斯模型对iris数据集进行花分类。

尝试使用3种不同类型的朴素贝叶斯：

高斯分布型
多项式型
伯努利型

并使用sklearn.model_selection.cross_val_score()，对各模型进行交叉验证。

完整代码

 1 from sklearn.datasets import load_iris
 2 from sklearn.naive_bayes import GaussianNB     # 高斯分布型
 3 from sklearn.naive_bayes import MultinomialNB  # 多项式型
 4 from sklearn.naive_bayes import BernoulliNB    # 伯努利型
 5 from sklearn.model_selection import cross_val_score
 6 import numpy as np
 7 
 8 # 提取数据
 9 iris = load_iris()
10 # 建立模型
11 gnb = GaussianNB()
12 mnb = MultinomialNB()
13 bnb = BernoulliNB()
14 # 训练模型
15 gnb_pre = gnb.fit(iris.data, iris.target)
16 mnb_pre = mnb.fit(iris.data, iris.target)
17 bnb_pre = bnb.fit(iris.data, iris.target)
18 # 分类预测
19 y_gnb = gnb_pre.predict(iris.data)
20 y_mnb = mnb_pre.predict(iris.data)
21 y_bnb = bnb_pre.predict(iris.data)
22 
23 print('GNB预测正确个数/总个数:{0}/{1}'.format(np.equal(y_gnb, iris.target).sum(), iris.data.shape[0]))
24 print('MNB预测正确个数/总个数:{0}/{1}'.format(np.equal(y_mnb, iris.target).sum(), iris.data.shape[0]))
25 print('BNB预测正确个数/总个数:{0}/{1}'.format(np.equal(y_bnb, iris.target).sum(), iris.data.shape[0]))
26 
27 # 交叉验证
28 gnb_scores = cross_val_score(gnb, iris.data, iris.target, cv=10)
29 print("GNB Accuracy:%.6f" % gnb_scores.mean())
30 mnb_scores = cross_val_score(mnb, iris.data, iris.target, cv=10)
31 print("MNB Accuracy:%.6f" % mnb_scores.mean())
32 bnb_scores = cross_val_score(bnb, iris.data, iris.target, cv=10)
33 print("BNB Accuracy:%.6f" % bnb_scores.mean())

posted @ 2020-05-07 08:40 linyanli 阅读(437) 评论(0) 收藏举报

linyanli

🌞🌙⭐🏡🌳😊✨📚💻🐟🍓🌸🌈💗🕒😆

11 分类与监督学习，朴素贝叶斯分类算法

公告