上一页 1 2 3 4 5 6 7 8 9 10 ··· 15 下一页

2025年7月16日

文本数据增强以及python实现

摘要: 1. 背景介绍 1.1 数据稀缺:AI时代的"自然资源短缺" 在人工智能和机器学习迅猛发展的今天,我们常听到"数据是新的石油"这一比喻。然而,对于文本分析任务而言,高质量的标注数据更像是一种稀缺的"稀土资源"——获取成本高昂,却对最终产品质量至关重要。 想象一下,您正在为一家电商平台构建一个客户评论 阅读全文

posted @ 2025-07-16 21:25 limingqi 阅读(72) 评论(0) 推荐(0)

2025年7月15日

异常检测:K-Means算法

摘要: K-Means算法是一个聚类算法,在样本没有类别的情况下可以通过算法聚出类别,比如某公司中有大量的用户,现在需要我们将用户划分出类别,但是现在我们并不知道怎么划分更好,这个时候就可以通过K-Means算法来帮助我们划分出类别。其原理是通过计算样本到质心的距离来对样本聚出类别,其中的距离我们可以理解为 阅读全文

posted @ 2025-07-15 20:59 limingqi 阅读(98) 评论(0) 推荐(0)

异常检测:3西格玛原则

摘要: 3σ原则基于正态分布的数学原理,它假设一组检测数据中只含有随机误差,通过计算得到标准偏差σ,然后按一定概率确定一个区间,对于超过这个区间的误差,就不属于随机误差而是粗大误差,将含有粗大误差的数据进行剔除。 在统计学中,如果一个变量服从正态分布,且它的均值是u, 标准差是σ,那么将有: (1)68.2 阅读全文

posted @ 2025-07-15 20:49 limingqi 阅读(654) 评论(0) 推荐(0)

2025年7月14日

异常检测:四分位距法(IQR)

摘要: 一、IQR介绍 IQR(Interquartile Range)算法是一种用于检测异常值的统计方法,主要基于数据的四分位数。IQR 代表数据集中第 1 四分位数(Q1)和第 3 四分位数(Q3)之间的范围。 1.1 IQR 算法步骤 1)计算四分位数: Q1(下四分位数):数据中 25% 的值。Q3 阅读全文

posted @ 2025-07-14 20:38 limingqi 阅读(561) 评论(2) 推荐(1)

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy 论文概述

摘要: 一、研究背景与动机 在强化学习从人类反馈(RLHF)中,奖励模型(RMs)至关重要,它决定了模型对人类偏好的捕捉和对齐程度。但当下最先进的开源奖励模型,在多数现有评估基准上表现欠佳,难以有效捕捉人类偏好中细微、复杂的部分。即便运用先进训练技术,性能提升也不明显。经分析,问题主要源于偏好数据集的局限性 阅读全文

posted @ 2025-07-14 16:15 limingqi 阅读(57) 评论(0) 推荐(0)

WorldPM: Scaling Human Preference Modeling 偏好模型论文概述

摘要: 一、引言与背景 研究动机 大语言模型(LLM)偏好建模的现状:传统奖励模型(RM)依赖人工标注的 “小数据”(如 HelpSteer2、UltraFeedback 等),存在泛化能力弱、成本高、覆盖场景有限等问题。 核心痛点:如何让模型更高效地学习人类偏好,且能适配多样化的真实世界场景? World 阅读全文

posted @ 2025-07-14 14:40 limingqi 阅读(40) 评论(0) 推荐(0)

2025年7月9日

分步微调VS合并微调

摘要: 两种微调方式(分步微调 vs 合并微调)在模型学习效果、数据影响权重、泛化能力等方面存在显著差异,核心区别如下: 一、学习逻辑的本质差异 分步微调(a→x→b→y→c→z) 模型按顺序递进学习:先完全吸收数据集 a 的模式,再在 a 的基础上学习 b 的模式,最后在 b 的基础上学习 c 的模式。 阅读全文

posted @ 2025-07-09 16:43 limingqi 阅读(12) 评论(0) 推荐(0)

2025年7月8日

WorldPM: Scaling Human Preference Modeling 偏好模型复现过程以及代码实现

摘要: 偏好模型复现思路: 如上图所示,通过Stackexchange公开论坛数据集使用qwen系列模型进行全参数微调,训练目标是最小化BT loss,超参数等和论文保持一致 偏好模型预训练: 数据下载: StackExchange数据下载:https://www.modelscope.cn/dataset 阅读全文

posted @ 2025-07-08 11:24 limingqi 阅读(53) 评论(0) 推荐(0)

2025年7月3日

我的成长之路:从山野到科技前沿的破壁者

摘要: 我出生在群山环绕的小村庄,从村小到镇中学,从县重点高中到省会大学,最终在广东完成硕士学业,这条蜿蜒的求学之路让我明白:人生的边界,永远由自己定义。 2020年,疫情的时候我以校招生身份加入百度,从健康/医美事业部起步,五年间深度参与医疗、教育、金融、汽车等多领域项目,主导申请5项技术专利,并最终进入 阅读全文

posted @ 2025-07-03 11:43 limingqi 阅读(71) 评论(0) 推荐(0)

2025年5月27日

Query—>Plan->Answers智能体规划优化方案

摘要: 目标: 训练一个能够高效处理从用户查询(query)到生成计划(plan),再到最终回答的智能体,需要结合多种技术和方法。以下是分阶段的合理训练方案设计: 1. 明确架构设计 首先需要确定智能体的核心架构,典型结构如下: Query → [理解模块] → Plan → [规划模块] → Sub-ta 阅读全文

posted @ 2025-05-27 15:50 limingqi 阅读(102) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 8 9 10 ··· 15 下一页

导航