目录 逆序对简介 逆序对能做什么 一些逆序对杂题 总结 逆序对简介 逆序对定义 给定一个序列 \(a\),存在有序对 \((i,j)\),满足 \(i<j\) 且 \(a_i > a_j\),则称 \((i,j)\) 为一个逆序对。 如何求序列逆序对对数 根据定义:对于一个下标 \(i\),它能产生 ...
PPO并非“万能增强器”,而是精准解决模型“行为偏好错位”的工具:当模型“会但总选错”(如安全拒答生硬、风格不稳、高风险下过度自信)时,PPO通过人类偏好反馈重塑其选择倾向;若问题本质是“不会”,则PPO无效甚至有害。用对场景,事半功倍。 ...
PPO实战难点不在算法理解,而在系统性不确定:动态数据、不稳reward、多目标冲突。关键在于明确对齐目标、用SFT模型起步、必备reference、设计偏好型reward、聚焦policy更新、善用KL系数调控风险,并以行为变化而非loss曲线评估进展——耐心跑通最小闭环,才是成功核心。 ...
参数一多,微调就变成了一场“看不见赔率的赌博” 如果你做过几次大模型微调,大概率会有一种非常熟悉的体验。 第一次跑通微调之后,你开始觉得这件事“好像也没那么难”。模型能训起来,loss 能降,输出也确实有点变化。接下来,你自然会做一件事:开始调参数。 学习率小一点? batch size 大一点? ...
LoRA 确实解决了很多现实问题,这一点没有任何争议。但问题在于,LoRA 被过度神话了。很多人把它当成了一种“几乎没有代价的微调方式”,仿佛只要挂上 LoRA,就能放心大胆地训练。而真实工程里,LoRA 带来的,从来不是“没有代价”,而是代价被换了一种形式 ...
在工程实践中,真正成熟的团队,并不是“什么都敢调”,而是知道什么时候该收手。微调是一种非常强的工具,但正因为它强,才更需要克制。很多时候,你不微调,并不是因为你不会,而是因为你足够清楚——现在不是它该出场的时候。 ...
为什么大家突然开始“只谈 DPO,不谈 PPO” 如果你最近在刷技术社区、看分享或者听内部讨论,很容易产生一种感觉: PPO 好像有点“过时”了,DPO 才是新一代对齐方案。 很多文章在反复强调: DPO 不需要 reward model DPO 更稳定 DPO 更简单 DPO 是对 PPO 的“降 ...
从零搭建向量数据库:实现文本语义检索实战 写在最前面:我一开始真没打算“自己搭一个” 说句实话,我第一次接触向量数据库的时候,根本没想过要自己搭一套。 原因也很现实: 市面上已经有不少成熟产品 文档、SDK、Demo 一应俱全 看起来直接用现成的就好 所以一开始我的想法非常简单: 我只需要一个“能做 ...
不用换显卡!大模型微调显存优化实操指南(附代码+效果对比) (一)引言:低显存显卡的“微调困境”怎么破? 大家好,我是七七!之前写过大模型微调显存消耗的核心原因,后台立马炸了——九成粉丝都在说:“博主,道理我懂了,但我只有16G显卡,还是跑不通7B模型,总不能为了微调换48G显卡吧?” 其实这也是我 ...
26. 删除有序数组中的重复项 给你一个 非严格递增排列 的数组 nums ,请你 原地 删除重复出现的元素,使每个元素 只出现一次 ,返回删除后数组的新长度。元素的 相对顺序 应该保持 一致 。然后返回 nums 中唯一元素的个数。 考虑 nums 的唯一元素的数量为 k。去重后,返回唯一元素的数 ...
如下知识均来自大话数据结构这本书,作者程杰 算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作。 算法具有五个基本特性: 输入、输出、有穷性、确定性和可行性 1.输入:算法可以有输入,也可以没有 2.输出:算法必须要至少有一个输出 3.有穷性:指算法在执 ...
介绍 像线性数据结构在查找的时候,⼀般都是使⽤= 或者!= ,在折半查找或者其他范围查询的时候,可能会使⽤< 和> ,理想的时候,我们肯定希望不经过任何的⽐较,直接能定位到某个位置(存储位置),这种在数组中,可以通过索引取得元素。那么,如果我们将需要存储的数据和数组的索引对应起来,并且是⼀对⼀的关系 ...
Ⅰ.数据结构 1.树状数组 时间复杂度:\(O(n\log n)\) 优点:常数小 缺点:可以维护的内容不如线段树 应用:小常数维护前缀和或单点值 int tr[200005]; void add(int x,int y){while(x<=n)tr[x]+=y,x+=(-x)&x;} int q ...
今天退役了,根据惯例要写一篇小作文,如果你能能读完这篇小作文,我会很高兴。 这篇小作文会介绍一下我在打 ICPC 期间学过的 LCS 相关的算法,希望能提高大家的理解。 \(\text{LCS}\) 问题:字符集为 \(\Sigma\),你需要求两个字符串 \(A, B\) 的最长公共子序列。 经典 ...
在整数这个崭新的世界里,乘法是畅通无阻的。但它的逆运算——除法,又成了新的不可能任务。6 / 3 = 2,没问题,结果还是个整数。但 3 / 6 呢?2 / 3 呢?1 / 2 呢?在整数的世界里,没有它们的容身之处。 是时候再次启动我们的“创世工具”流水线了。我们将现场展示,如何用完全一样的“有序 ...
网格图转向最短路问题 题目描述 给定一个 \(n \times m\) 的网格,每个格子标记为 A、B 或 C 类型。从起点 \((1, 1)\) 出发,初始方向向右,目标到达 \((n, m+1)\)(网格右侧外一格)且方向向右。 在不同的格子类型中转向有不同的代价规则: A 格:直行不消耗代价, ...
1. 设顺序表中的元素递增有序,编写一个算法,将元素x插入顺序表L中的适当位置,以保持该顺序表的有序性。 void sortInsert(List *l,int x){ //假设表是有序的 if(l->length==MAXSIZE) exit(1);//表已满,无法插入 for(int i=0; ...
安徽京准:国产化北斗卫星对时服务引领全球 安徽京准:国产化北斗卫星对时服务引领全球 京准科技官微——ahjzsz 全国产北斗卫星授时服务器正凭借其高精度、自主可控的特点,成为全球精准时间同步领域一股强大的力量。下面这个表格,概括了它的核心优势: 自主可控 从芯片到接收机、软件系统实现100%全国产化 ...
该笔记系统性介绍树结构知识,核心涵盖二叉树(术语、类型、层序/前中后序遍历、数组表示及C++实现)、二叉搜索树(插入、查找、删除操作及代码)、AVL树(平衡因子、旋转操作及C++实现)等内容,通过概念讲解与代码示例结合,详细阐述了树结构的原理与应用。 ...
首先注意到图是一个 DAG,那么我们考虑什么情况下是合法的。发现首先是 \(1\) 必须是唯一的一个入度为 \(0\) 的点,且所有点的入度不为 \(0\) 即可。虽然直接想到了但是补一个证明: 1.必要性。如果存在一个入度为 \(0\) 且非 \(1\) 的点,那么也就是说没有有向边可以到达,故非 ...