2024.9.30
机器学习
查询数据集(>=3个),并填表说明数据集的名称、样本数、属性、属性个数、标签、任务等基本信息。
需提交2个文档:1. 数据集打包,提交压缩包,命名“数据集-姓名+学号”;
2. 下载数据集表,填写完整,提交Word版或PDF版,命名“数据信息-姓名+学号”。
数据集信息
1.
数据集名称 |
Titanic 数据集 |
|||||
来源 |
Kaggle |
|||||
数据集描述 |
包含 Titanic 号乘客的生存数据,用于分析生存情况。 |
|||||
样本数(大小) |
887 |
属性个数 |
7 |
属性值取值范围 |
船舱等级: 1 到 3 性别: 男性(male)、女性(female) 年龄: 0 到 80+ 票价: 0 到 512.329 登船港口: C(Cherbourg)、Q(Queenstown)、S(Southampton) |
|
标签数量 |
2 |
标签值\取值范围 |
0(未生存), 1(生存) |
|||
样本举例 |
Pclass1,Sex female,age 29,SibSp 0,Parch 0,Fare 211.337,Survived 1 |
|||||
面向任务 |
二元分类任务,用于预测乘客是否生存。 |
|||||
2.
数据集名称 |
Iris 数据集 |
|||||
来源 |
||||||
数据集描述 |
Iris 数据集包含三种鸢尾花(Setosa、Versicolor、Virginica)的测量数据,主要用于分类任务。每种花都有50个样本。 |
|||||
样本数(大小) |
150 |
属性个数 |
4 |
属性值取值范围 |
花萼长度: 4.3 cm 到 7.9 cm 花萼宽度: 2.0 cm 到 4.4 cm 花瓣长度: 1.0 cm 到 6.9 cm 花瓣宽度: 0.1 cm 到 2.5 cm |
|
标签数量 |
3 |
标签值\取值范围 |
Setosa, Versicolor, Virginica |
|||
样本举例 |
花萼长度 5.1,花萼宽度3.5,花瓣长度1.4,花瓣宽度0.2,种类Setosa |
|||||
面向任务 |
分类任务,用于识别鸢尾花的种类。 |
|||||
3.
数据集名称 |
MNIST 数据集 |
|||||
来源 |
Yann LeCun's website |
|||||
数据集描述 |
包含手写数字的图像数据集,广泛用于图像分类。 |
|||||
样本数(大小) |
70,000(其中训练集 60,000,测试集 10,000) |
属性个数 |
784(28x28 像素图像展平) |
属性值取值范围 |
像素值在 0 到 255 之间 |
|
标签数量 |
10 |
标签值\取值范围 |
0到9 |
|||
样本举例 |
数字5 |
|||||
面向任务 |
图像分类任务,用于识别手写数字。 |
|||||