模型训练流程
模型训练流程
机器学习(Machine Learning):核心思想是从经验中学习
- 提供历史数据
- 创建新模型,训练历史数据
- 将数据输入模型,预测结果。
分类方式:
-
监督学习(Supervised Learning): 指的是使用带有标签的数据进行训练;
常见任务:
- 回归(Regression):预测连续数值(房价预测、股票趋势)
- 分类(Classification):预测离散数据(垃圾邮件识别,图片中的分类)
-
无监督学习:给机器一堆没有标签的数据进行训练,模型自行发现数据内部的结构、模式和分布
常见任务:
- 聚类(Clustering):将相似的数据分组(客户细分、新闻主题分类)
- 降维(Dimensionality):减少特征数量同时保留主要信息(PCA主成分分析,用于可视化或去噪)
- 关联规则学习:发现变量间的有趣关系(购物篮分析,“买了啤酒的人常买尿布”)
-
自监督学习/半监督学习(Self-Supervised Learning):一种无需人工标注数据的学习方法,它通过利用数据本身的结构生成标签,并用这些生成的标签训练模型。
-
强化学习(Reinforcement Learning,RL): 智能体通过环境交互,根据奖励或惩罚信号来学习最优策略,以最大化长期累积奖励
应用场景:游戏AI(AIphaGo)、机器人控制、自动驾驶决策、资源调度
模型训练
- 预训练(preTraining):让模型学习通用知识,使用海量无标注文本,通过自监督学习训练模型
- 监督微调(Supervised Fine Tuning,SFT):对基座模型进行微调,使模型能够适用特定的任务,最终得到一个有偏好的模型
- 强化学习(Reinforcement Learning):通过引入人类反馈(或基于人类反馈训练的奖励模型)进一步优化模型的生成质量,使其生成的回答更符合用户的期望和人类的期望。
本文来自博客园,作者:前端加油站,转载请注明原文链接:https://www.cnblogs.com/bllx/p/19651811

浙公网安备 33010602011771号