11 11分类与监督学习,朴素贝叶斯分类算法
1.理解分类与监督学习、聚类与无监督学习。
简述分类与聚类的联系与区别。
分类就是按照数据的属性给对象贴上标签,再根据标签来分类,属于无监督学习,聚类就是指事先定义好类别,然后通过某种度量(比如距离)将他们分类。
简述什么是监督学习与无监督学习。
有监督学习:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。就如有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。又如我们小的时候不知道牛和鸟是否属于一类,但当我们随着长大各种知识不断输入,我们脑中的模型越来越准确,判断动物也越来越准确。
无监督学习:我们事先没有任何训练样本,而需要直接对数据进行建模。比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别。无监督学习主要算法是聚类,聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到,主要算法包括Kmeans、层次聚类、EM算法。
2.朴素贝叶斯分类算法实例
利用关于心脏病患者的临床历史数据集,建立朴素贝叶斯心脏病分类模型。
有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数
目标分类变量疾病:
–心梗
–不稳定性心绞痛
新的实例:–(性别=‘男’,年龄<70, KILLP=‘I',饮酒=‘是’,吸烟≈‘是”,住院天数<7)
最可能是哪个疾病?
上传手工演算过程。
|
|
性别 |
年龄 |
KILLP |
饮酒 |
吸烟 |
住院天数 |
疾病 |
|
1 |
男 |
>80 |
1 |
是 |
是 |
7-14 |
心梗 |
|
2 |
女 |
70-80 |
2 |
否 |
是 |
<7 |
心梗 |
|
3 |
女 |
70-81 |
1 |
否 |
否 |
<7 |
不稳定性心绞痛 |
|
4 |
女 |
<70 |
1 |
否 |
是 |
>14 |
心梗 |
|
5 |
男 |
70-80 |
2 |
是 |
是 |
7-14 |
心梗 |
|
6 |
女 |
>80 |
2 |
否 |
否 |
7-14 |
心梗 |
|
7 |
男 |
70-80 |
1 |
否 |
否 |
7-14 |
心梗 |
|
8 |
女 |
70-80 |
2 |
否 |
否 |
7-14 |
心梗 |
|
9 |
女 |
70-80 |
1 |
否 |
否 |
<7 |
心梗 |
|
10 |
男 |
<70 |
1 |
否 |
否 |
7-14 |
心梗 |
|
11 |
女 |
>80 |
3 |
否 |
是 |
<7 |
心梗 |
|
12 |
女 |
70-80 |
1 |
否 |
是 |
7-14 |
心梗 |
|
13 |
女 |
>80 |
3 |
否 |
是 |
7-14 |
不稳定性心绞痛 |
|
14 |
男 |
70-80 |
3 |
是 |
是 |
>14 |
不稳定性心绞痛 |
|
15 |
女 |
<70 |
3 |
否 |
否 |
<7 |
心梗 |
|
16 |
男 |
70-80 |
1 |
否 |
否 |
>14 |
心梗 |
|
17 |
男 |
<70 |
1 |
是 |
是 |
7-14 |
心梗 |
|
18 |
女 |
70-80 |
1 |
否 |
否 |
>14 |
心梗 |
|
19 |
男 |
70-80 |
2 |
否 |
否 |
7-14 |
心梗 |
|
20 |
女 |
<70 |
3 |
否 |
否 |
<7 |
不稳定性心绞痛 |
答:
设X{x1,x2,x,x1,x1,x1}为影响疾病的因素
Y{y1,y2}为疾病类型,y1为心梗、y2为不稳定性心绞痛
则P(y1)=16/20,P(y2)=4/20,P(X)=1
P(y1|X)=P(X|y1)P(y1)/P(X)=P(x1|y1)P(x2|y1)P(x3|y1)P(x4|y1)P(x5|y1)P(x6|y1)P(y1)/P(X)=7/16*4/16*9/16*3/16*7/16*4/16*16/20/1=0.1009%
P(y2|X)=P(X|y2)P(y2)/P(X)=P(x1|y2)P(x2|y2)P(x3|y2)P(x4|y2)P(x5|y2)P(x6|y2)P(y2)/P(X)=1/4*1/4*1/4*1/4*2/4*2/4*4/20/1=0.0195%
故最可能是心梗。
3.使用朴素贝叶斯模型对iris数据集进行花分类。
尝试使用3种不同类型的朴素贝叶斯:
·高斯分布型
#高斯分布型
from sklearn.datasets import load_iris #导入鸢尾花数据集
from sklearn.naive_bayes import GaussianNB #导入高斯朴素贝叶斯模型
from sklearn.model_selection import cross_val_score #模型评估
iris=load_iris() #读取数据
model=GaussianNB() #构建模型
pre=model.fit(iris.data,iris.target) #训练模型
y_pre=pre.predict(iris.data) #模型预测
print("数据总数:",iris.data.shape[0])
print("预测正确个数为:",(iris.target == y_pre).sum())
print("预测错误个数为:",(iris.target != y_pre).sum())
score=cross_val_score(model,iris.data,iris.target,cv=10) #交叉验证
print("高斯朴素贝叶斯模型准确率为:",score.mean())

浙公网安备 33010602011771号