定义

  1. 训练集(Training Set):

    • 训练集是用来训练机器学习模型的数据集。
    • 模型通过训练集中的样本学习关联模式、特征,以便能够对新数据进行预测或分类。
    • 训练集的质量和数量对模型性能有着重要的影响。
  2. 测试集(Test Set):

    • 测试集用于最终评估模型的性能,检查模型对未见过的数据的泛化能力。
    • 模型在测试集上的表现是对其在真实场景中的预测能力的一种估计。
    • 测试集应该是模型在训练和验证过程中没有接触到的独立数据。

 数据集划分:

from sklearn.model_selection import train_test_split

# 假设X是特征,y是标签
X, y = your_data  # 请替换为你的实际数据

# 划分数据集
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.2, random_state=42)

# 将剩余的20%划分为验证集和测试集(各占总数据的一半)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# 打印各个集合的大小
print("训练集大小:", len(X_train))
print("验证集大小:", len(X_val))
print("测试集大小:", len(X_test))

  

 

X_train训练的数据,是输入到model
y_train,训练的label,输入到损失函数
posted on 2023-03-28 15:57  黑逍逍  阅读(92)  评论(0)    收藏  举报