2024.11.29

数据集信息

1.

数据集名称

14,400 首经典摇滚曲目

来源

https://www.kaggle.com/datasets/thebumpkin/14400-classic-rock-tracks-with-spotify-data

数据集描述

 该数据集涵盖了 1962 年至 2024 年的经典摇滚音乐。包含 94 位艺术家的完整录音室专辑、1,200 张独特专辑和 14,400 首曲目,以及每首曲目的元数据和 Spotify 音频特征。

样本数(大小)

14,400

属性个数

18

属性值取值范围

属性包括曲目名称、艺术家、专辑、发行年份、Spotify 音频特征(如节奏、音调、舞蹈性等)

标签数量

无特定标签字段(但可以通过专辑、艺术家等字段进行分类)

标签值\取值范围

可选择基于艺术家、专辑、年份或音频特征进行分类等任务

样本举例

1. 曲目名称: Stairway to Heaven, 艺术家: Led Zeppelin, 专辑: Led Zeppelin IV, 年份: 1971, 音频特征: [BPM, Valence, Energy, etc.]

2. 曲目名称: Hotel California, 艺术家: Eagles, 专辑: Hotel California, 年份: 1976, 音频特征: [BPM, Valence, Energy, etc.]

3. 曲目名称: Bohemian Rhapsody, 艺术家: Queen, 专辑: A Night at the Opera, 年份: 1975, 音频特征: [BPM, Valence, Energy, etc.]

面向任务

 1. 分类: 根据艺术家、年份、专辑分类

2. 回归: 预测曲目流行度、音频特征值

3. 聚类: 根据相似音频特征或艺术家类型进行曲目聚类

4. 识别: 识别特定艺术家或曲目风格

 

2.

数据集名称

  MBA 录取数据集

来源

https://www.kaggle.com/datasets/taweilo/mba-admission-dataset

数据集描述

此该数据集是基于沃顿商学院 2025 届 MBA 录取的合成数据,包含考生的学术成绩、GMAT 分数、工作经验、申请状态等信息。可用于分析 MBA 录取的影响因素。

 

 

样本数(大小)

 500-1000 个样本

属性个数

5-10 个属性(包括考生 GPA、GMAT 分数、工作年限、性别、申请状态等)

属性值取值范围

例如:GPA(0-4)、GMAT(200-800)、工作经验(0-20 年)、申请状态(录取/拒绝)等

标签数量

1 个标签字段

标签值\取值范围

申请状态(录取/拒绝)

样本举例

 1. GPA: 3.8, GMAT: 720, 工作经验: 5 年, 性别: 男, 申请状态: 录取

2. GPA: 3.2, GMAT: 680, 工作经验: 2 年, 性别: 女, 申请状态: 拒绝

3. GPA: 3.6, GMAT: 710, 工作经验: 4 年, 性别: 男, 申请状态: 录取

面向任务

 1. 分类: 预测申请者是否会被录取

2. 回归: 根据 GPA、GMAT、工作经验等预测录取的概率

3. 聚类: 基于申请者特征(如 GPA 和 GMAT)对申请者进行分组

4. 识别: 识别录取成功的关键因素

 

3.

数据集名称

全球黑钱交易数据集

来源

https://www.kaggle.com/datasets/waqi786/global-black-money-transactions-dataset

数据集描述

该数据集提供多个国家/地区黑钱交易的详细信息,包含交易金额、风险评分、交易时间、地理位置等属性,用于分析非法金融活动及相关犯罪模式。

样本数(大小)

  5000-10000 条交易记录(推测,根据非法交易数据的规模)

属性个数

    10-15 个属性(例如:交易金额、交易时间、国家/地区、风险评分、交易渠道等)

属性值取值范围

交易金额(少量到大额)、风险评分(0-100)、交易时间(时间戳)、国家代码(ISO 国家代码)等

标签数量

1 个标签字段(用于标记交易是否合法或可疑)

标签值\取值范围

    10-15 个属性(例如:交易金额、交易时间、国家/地区、风险评分、交易渠道等)

样本举例

 1. 交易金额: $10,000, 国家: US, 风险评分: 85, 交易时间: 2023-03-21 14:30:00, 交易类型: 高风险转账

2. 交易金额: $500, 国家: IN, 风险评分: 20, 交易时间: 2023-06-11 09:12:00, 交易类型: 低风险交易

3. 交易金额: $2,500,000, 国家: CN, 风险评分: 95, 交易时间: 2022-11-05 18:45:00, 交易类型: 高风险转账

面向任务

 1. 分类: 预测交易是否合法或可疑

2. 回归: 预测交易的风险评分

3. 聚类: 基于交易金额、风险评分等属性对交易模式进行聚类

4. 识别: 识别高风险的金融交易

posted @ 2024-11-29 09:20  kuku睡  阅读(24)  评论(0)    收藏  举报