定义
-
训练集(Training Set):
- 训练集是用来训练机器学习模型的数据集。
- 模型通过训练集中的样本学习关联模式、特征,以便能够对新数据进行预测或分类。
- 训练集的质量和数量对模型性能有着重要的影响。
-
测试集(Test Set):
- 测试集用于最终评估模型的性能,检查模型对未见过的数据的泛化能力。
- 模型在测试集上的表现是对其在真实场景中的预测能力的一种估计。
- 测试集应该是模型在训练和验证过程中没有接触到的独立数据。
数据集划分:
from sklearn.model_selection import train_test_split
# 假设X是特征,y是标签
X, y = your_data # 请替换为你的实际数据
# 划分数据集
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.2, random_state=42)
# 将剩余的20%划分为验证集和测试集(各占总数据的一半)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)
# 打印各个集合的大小
print("训练集大小:", len(X_train))
print("验证集大小:", len(X_val))
print("测试集大小:", len(X_test))
X_train训练的数据,是输入到model
y_train,训练的label,输入到损失函数
浙公网安备 33010602011771号