2024.9.30

机器学习

查询数据集(>=3个),并填表说明数据集的名称、样本数、属性、属性个数、标签、任务等基本信息。

 

需提交2个文档:1. 数据集打包,提交压缩包,命名“数据集-姓名+学号”;

                          2. 下载数据集表,填写完整,提交Word版或PDF版,命名“数据信息-姓名+学号”。

数据集信息

1.

数据集名称

Titanic 数据集

来源

Kaggle

数据集描述

包含 Titanic 号乘客的生存数据,用于分析生存情况。

样本数(大小)

887

属性个数

7

属性值取值范围

  船舱等级: 1 到 3

  性别: 男性(male)、女性(female)

  年龄: 0 到 80+

  票价: 0 到 512.329

  登船港口: C(Cherbourg)、Q(Queenstown)、S(Southampton)

标签数量

2

标签值\取值范围

0(未生存), 1(生存)

样本举例

Pclass1,Sex  female,age 29,SibSp 0,Parch 0,Fare 211.337,Survived 1

面向任务

二元分类任务,用于预测乘客是否生存。

             

 

2.

数据集名称

Iris 数据集

来源

UCI Machine Learning Repository

数据集描述

Iris 数据集包含三种鸢尾花(Setosa、Versicolor、Virginica)的测量数据,主要用于分类任务。每种花都有50个样本。

样本数(大小)

150

属性个数

4

属性值取值范围

花萼长度: 4.3 cm 到 7.9 cm

花萼宽度: 2.0 cm 到 4.4 cm

花瓣长度: 1.0 cm 到 6.9 cm

花瓣宽度: 0.1 cm 到 2.5 cm

标签数量

3

标签值\取值范围

Setosa, Versicolor, Virginica

样本举例

花萼长度 5.1,花萼宽度3.5,花瓣长度1.4,花瓣宽度0.2,种类Setosa

面向任务

分类任务,用于识别鸢尾花的种类。

             

 

3.

数据集名称

MNIST 数据集

来源

Yann LeCun's website

数据集描述

包含手写数字的图像数据集,广泛用于图像分类。

样本数(大小)

70,000(其中训练集 60,000,测试集 10,000)

属性个数

784(28x28 像素图像展平)

属性值取值范围

像素值在 0 到 255 之间

标签数量

10

标签值\取值范围

0到9

样本举例

数字5

面向任务

图像分类任务,用于识别手写数字。

             

 

posted @ 2024-12-25 01:54  cvjj  阅读(12)  评论(0)    收藏  举报