摘要: 学习参考:链接1 一、为什么要提出DPO 在之前,我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段:全监督微调(SFT)、奖励模型(RM)、强化学习(PPO)。但是RLHF面临缺陷:RLHF 是一个复杂且经常不稳定的过程,首先拟合反映人类偏好的奖励模型,然后使用强化学习微调大型无监督 LM, 阅读全文
posted @ 2024-01-15 09:56 kkzhang 阅读(1755) 评论(0) 推荐(0) 编辑
摘要: 在实际中,我们常常需要讲将atex公式在word中书写。不采用手敲word公式,如何直接从Latex公式转word公式: 非常好的网站:https://www.latexlive.com/ 可以直接复制公式到word中粘贴,省去很大的负担! 阅读全文
posted @ 2023-12-27 21:36 kkzhang 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 1、字格式化输出: .lower() 全部小写 .upper() 全部大写 .title() 各个字符的首字母大写 .capitalize() 首字母大写 .strip() 删除两边空格 .lstrip() 删除左边空格 .rstrip() 删除右边空格 .replace(" ","") 删除所有空 阅读全文
posted @ 2023-12-13 21:53 kkzhang 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 浮点数格式 (参考1,参考2) 浮点数是一种用二进制表示的实数,它由三个部分组成:sign(符号位)、exponent(指数位)和fraction(小数位)。不同的浮点数格式有不同的位数分配给这三个部分,从而影响了它们能表示的数值范围和精度。例如: 下面是一些常见的浮点数格式的介绍: FP64(双精 阅读全文
posted @ 2023-11-20 10:08 kkzhang 阅读(2205) 评论(0) 推荐(0) 编辑
摘要: (1) PPO Trainer TRL支持PPO Trainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例,请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原 阅读全文
posted @ 2023-11-13 15:44 kkzhang 阅读(505) 评论(0) 推荐(0) 编辑
摘要: 参考Github 开源模型 LLM-Tuning 一、简介 (1)RLHF (基于人类反馈的强化学习) 分为三步: SFT (Supervised Fine-Tuning): 有监督的微调,使用正常的 instruction following 或者对话的样本,来训练模型的基础对话、听从 promp 阅读全文
posted @ 2023-11-09 16:03 kkzhang 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 基于人类反馈的强化学习, RLHF,转载参考链接 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念,可以按三个步骤分解: 预训练一个语言模型 (LM) ; 聚合问答数据并训练一个奖励模型 (Reward Model,RM) ; 用强化学习 (RL) 方式微调 LM。 Step 1. 预训练语言模 阅读全文
posted @ 2023-11-09 10:39 kkzhang 阅读(270) 评论(0) 推荐(0) 编辑
摘要: (跨模态置信度感知的图像文本匹配网络)AAAI 2022 阅读全文
posted @ 2022-07-21 11:16 kkzhang 阅读(3512) 评论(16) 推荐(1) 编辑
摘要: 跨模态语义关联对齐检索-图像文本匹配(Image-Text Matching)最新进展 阅读全文
posted @ 2022-07-07 23:04 kkzhang 阅读(8888) 评论(18) 推荐(4) 编辑
摘要: presentation的视频录制,自动字幕添加 阅读全文
posted @ 2022-05-31 16:02 kkzhang 阅读(1051) 评论(0) 推荐(0) 编辑