模型训练流程

监督学习（Supervised Learning）: 指的是使用带有标签的数据进行训练；

常见任务：
- 回归（Regression）:预测连续数值（房价预测、股票趋势）
- 分类（Classification）：预测离散数据（垃圾邮件识别，图片中的分类）
无监督学习：给机器一堆没有标签的数据进行训练，模型自行发现数据内部的结构、模式和分布

常见任务：
- 聚类（Clustering）：将相似的数据分组（客户细分、新闻主题分类）
- 降维(Dimensionality)：减少特征数量同时保留主要信息（PCA主成分分析，用于可视化或去噪）
- 关联规则学习：发现变量间的有趣关系（购物篮分析，“买了啤酒的人常买尿布”）
自监督学习/半监督学习（Self-Supervised Learning）：一种无需人工标注数据的学习方法，它通过利用数据本身的结构生成标签，并用这些生成的标签训练模型。
强化学习（Reinforcement Learning,RL）: 智能体通过环境交互，根据奖励或惩罚信号来学习最优策略，以最大化长期累积奖励

应用场景：游戏AI（AIphaGo）、机器人控制、自动驾驶决策、资源调度

预训练（preTraining）:让模型学习通用知识，使用海量无标注文本，通过自监督学习训练模型
监督微调（Supervised Fine Tuning,SFT）:对基座模型进行微调，使模型能够适用特定的任务，最终得到一个有偏好的模型
强化学习（Reinforcement Learning）：通过引入人类反馈（或基于人类反馈训练的奖励模型）进一步优化模型的生成质量，使其生成的回答更符合用户的期望和人类的期望。

posted @ 2026-02-28 11:38 前端加油站阅读(20) 评论(0) 收藏举报

刷新页面返回顶部

前端加油站⛽️