机器学习:是否毒蘑菇二分类任务—“躺板板”预测

大 作 业 报 告
课程名称 机器学习B 成绩
班级 信2305-2 姓名 茆伟昊 学号 20234054
名称:是否毒蘑菇二分类任务—“躺板板”预测
一、任务背景
毒蘑菇预测数据基于《Audobon Society Field Guide》是由UCI赞助的数据集,菌种范围包括与姬松茸和Lepiota科23种带鳃蘑菇相对应的假设样本的描述(第500-525页)。每种物种都被确定为绝对可食用、绝对有毒或食用性未知,不建议食用,后两类合并为有毒。《指南》明确指出,确定蘑菇的可食用性没有简单的规则。该数据集多次作为kaggle赛题,在2024年kaggle练习赛赛题中,即《有毒蘑菇的二分类预测》,参与队伍2000+,其中准确率达到98.5%以上的队伍高达300+。

本任务是一个二分类任务,与以往不同的是此数据集包含有缺失值数据,且属性值都是离散的,需要对这些数据进行分析,采用合理的方式进行处理。
另外,UCI还提供了另一版本的毒蘑菇数据集,本任务鼓励自行下载使用其它公开数据集对提供版本数据集进行补充或预处理以提高预测的准确率。
二、任务数据
本任务提供UCI《Mushroom》数据集,包含8124条样本,22个属性,两个标签作为输出,即有毒(p)和无毒(e)。属性描述和取值描述如下:

  1. cap-shape: bell=b, conical=c, convex=x, flat=f, knobbed=k, sunken=s
  2. cap-surface: ibrous=f, grooves=g, scaly=y, smooth=s
  3. cap-color: brown=n, buff=b, cinnamon=c, gray=g, green=r, pink=p, purple=u, red=e, white=w, yellow=y
  4. bruises?: bruises=t, no=f
  5. odor: almond=a, anise=l, creosote=c, fishy=y, foul=f, musty=m, none=n, pungent=p, spicy=s
  6. gill-attachment: attached=a, descending=d, free=f, notched=n
  7. gill-spacing: close=c, crowded=w, distant=d
  8. gill-size: broad=b, narrow=n
  9. gill-color: black=k, brown=n, buff=b, chocolate=h, gray=g, green=r, orange=o, pink=p, purple=u, red=e, white=w, yellow=y
  10. stalk-shape: enlarging=e, tapering=t
  11. stalk-root: bulbous=b, club=c, cup=u, equal=e, rhizomorphs=z, rooted=r, missing=?
  12. stalk-surface-above-ring: fibrous=f, scaly=y, silky=k, smooth=s
  13. stalk-surface-below-ring: fibrous=f, scaly=y, silky=k, smooth=s
  14. stalk-color-above-ring: brown=n, buff=b, cinnamon=c, gray=g, orange=o, pink=p, red=e, white=w, yellow=y
  15. stalk-color-below-ring: brown=n, buff=b, cinnamon=c, gray=g, orange=o, pink=p, red=e, white=w, yellow=y
  16. veil-type: partial=p, universal=u
  17. veil-color: brown=n, orange=o, white=w, yellow=y
  18. ring-number: none=n, one=o, two=t
  19. ring-type: cobwebby=c, evanescent=e, flaring=f, large=l, none=n, pendant=p, sheathing=s, zone=z
  20. spore-print-color: black=k, brown=n, buff=b, chocolate=h, green=r, orange=o, purple=u, white=w, yellow=y
  21. population: abundant=a, clustered=c, numerous=n, scattered=s, several=v, solitary=y
  22. habitat: grasses=g, leaves=l, meadows=m, paths=p, urban=u, waste=w, woods=d
    输出分类标签包括:edible=e, poisonous=p。
    补充说明:本任务支持使用补充外部数据集,例如UCI数据集《Secondary Mushroom》,共有61068条样本,同样包含两个类别标签edible=e, poisonous=p,但含有20个属性,因此注意引入外部数据集需要进行数据预处理。
    三、任描述务
  23. 导入数据集,返回当前数据的统计信息并进行阐述说明,以前6行为例进行结果展示。(10分)
  24. 数据分析和处理。包括对缺失值数据的处理和每个属性取值非数值离散数据的数值化两个任务,给出相应的处理方案并分别展示三条数据处理前后对比。(20分)
  25. 对数据集进行可视化处理,生成各特征之间关系的矩阵图,可用seaborn工具的pairplot ()方法进行绘图。(10分)
  26. 数据预处理,并将原始数据集划分为训练集和测试集,选用合适的机器学习算法对毒蘑菇数据集进行分类。(20分)
  27. 采用十交叉验证进行参数学习和模型评估。(20分)
  28. 预测结果分析及可视化,绘制混淆矩阵,分析毒蘑菇分类的查全率和查准率和F1值。通过分析模型分类结果,说明模型的性能。(20分)
    四、结果及分析
    简明结果
    精度 1.0000 查准率 1.0000 查全率 1.000 F1值 1.000
    详细方案和结果分析
    解决方案 【包括预测分析的设计思路的具体实现过程或实现步骤】
    1.缺失值数据处理方案

2.非数值数据数值化方案

3.分类算法设计思路或方案

4.具体实现过程或实现步骤

结果展示 【包括每个任务点结果的展示】
1.展示前6条数据(结果截图,并标明图1. 原始数据展示)。

图1. 原始数据展示

2.展示三条缺失值处理后的数据结果(结果截图,并标明图2. 缺失值处理数据展示)。

图2. 缺失值处理数据展示

3.展示三条数值化处理后的数据结果(结果截图,并标明图3. 数值化处理数据展示)。

图3. 数值化处理数据展示

4.数据可视化结果,即各特征之间关系的矩阵图(标明图4. 数据可视化)

图4. 数据可视化

5.混淆矩阵展示(标明图5. 分类混淆矩阵)

图5. 分类混淆矩阵

6.精度,查准率,查全率,FI值的结果截图(标明图6. 分类结果)

图6. 分类结果

结果分析 【包括预测结果分析(包括对超参影响、精度、查准率、查全率、F1值的分析)、可能存在的问题、可提升的改进思路等】

posted @ 2025-12-26 14:43  mwhB  阅读(8)  评论(0)    收藏  举报