24.11.8
实验六:朴素贝叶斯算法实现与测试
一、实验目的
深入理解朴素贝叶斯的算法原理,能够使用 Python 语言实现朴素贝叶斯的训练与测试,并且使用五折交叉验证算法进行模型训练与评估。
二、实验内容
(1)从 scikit-learn 库中加载 iris 数据集,使用留出法留出 1/3 的样本作为测试集(注意同分布取样);
(2)使用训练集训练朴素贝叶斯分类算法;
(3)使用五折交叉验证对模型性能(准确度、精度、召回率和 F1 值)进行评估和选择;
(4)使用测试集,测试模型的性能,对测试结果进行分析,完成实验报告中实验六的部分。
三、算法步骤、代码、及结果
- 算法伪代码
加载 Iris 数据集
划分数据集为训练集和测试集
定义朴素贝叶斯分类器(GaussianNB)
使用训练集训练朴素贝叶斯分类器
定义评估指标:准确度、加权精度、加权召回率、加权 F1 分数
对每个评估指标进行五折交叉验证并输出结果
使用测试集进行预测
输出分类性能报告 - 算法主要代码
完整源代码\调用库方法(函数参数说明)
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score
加载 Iris 数据集
iris = load_iris()
X = iris.data
y = iris.target
留出 1/3 数据作为测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3, random_state=42, stratify=y)
train_test_split主要参数:
sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)
arrays:待划分的特征矩阵 X 和标签向量 y
test_size:测试集比例,默认为 None
取值范围:(0, 1) 表示比例;整数表示测试集样本数;若为 None,则自动计算
train_size:训练集比例,默认为 None。若 test_size 和 train_size 均为 None,则默认 test_size=0.25
random_state:随机种子,整型值使得结果可复现
shuffle:布尔值,是否在划分前打乱数据,默认为 True
stratify:按特定分布划分数据。通常为标签 y,保证训练集和测试集中类别分布一致
print(f"训练集样本数: {len(X_train)}, 测试集样本数: {len(X_test)}")
定义朴素贝叶斯分类器
nb_classifier = GaussianNB()
GaussianNB主要参数:
GaussianNB()
默认参数无需调整,适用于小型数据集。
priors=None:类别的先验概率,若为 None,则根据训练集计算。
var_smoothing=1e-9:加在方差中的平滑参数,防止模型对数值极小的特征敏感。
使用训练集训练模型
nb_classifier.fit(X_train, y_train)
print("朴素贝叶斯分类器已训练完成。")
定义评估指标
scoring_metrics = ['accuracy', 'precision_weighted', 'recall_weighted', 'f1_weighted']
交叉验证并输出结果
for metric in scoring_metrics:
scores = cross_val_score(nb_classifier, X_train, y_train, cv=5, scoring=metric)
print(f"{metric.capitalize()} 的五折交叉验证得分: {scores}")
print(f"{metric.capitalize()} 的平均值: {scores.mean():.4f}")
cross_validate主要参数:
sklearn.model_selection.cross_validate(estimator, X, y=None, *, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, return_train_score=False, return_estimator=False, error_score=nan)
estimator:用于训练的模型,如 LogisticRegression()
X:特征矩阵
y:标签向量
scoring:评估指标,默认为 None,即使用模型默认评分标准
可选单个指标(如 'accuracy')或列表(如 ['accuracy', 'precision_macro'])
cv:交叉验证折数,默认值 5
n_jobs:并行计算的线程数,默认为 None
-1 表示使用所有可用CPU
return_train_score:是否返回训练集分数,默认为 False
在测试集上进行预测
y_pred = nb_classifier.predict(X_test)
输出分类性能报告
report = classification_report(y_test, y_pred, target_names=iris.target_names)
print("测试集分类性能报告:\n", report)
classification_report主要参数:
sklearn.metrics.classification_report(y_true, y_pred, *, labels=None, target_names=None, sample_weight=None, digits=2, output_dict=False, zero_division='warn')
y_true:真实标签
y_pred:预测标签
target_names:类别标签的名称
digits:结果小数位数,默认为 2
output_dict:是否以字典形式返回,默认为 False
- 训练结果截图(包括:准确率、精度(查准率)、召回率(查全率)、F1)
四、心得体会
通过本次实验,我深入理解了朴素贝叶斯算法的原理,特别是条件独立假设及其在分类问题中的应用。在实践中,我使用Python实现了朴素贝叶斯的训练与测试,并通过五折交叉验证对模型进行了训练与评估。实验让我体会到朴素贝叶斯在处理小规模数据集和高维数据时的效率与效果,同时也让我更加明确其适用场景和局限性。这次实践进一步提升了我对概率模型的理解与应用能力。