摘要: 浮点数格式 (参考1,参考2) 浮点数是一种用二进制表示的实数,它由三个部分组成:sign(符号位)、exponent(指数位)和fraction(小数位)。不同的浮点数格式有不同的位数分配给这三个部分,从而影响了它们能表示的数值范围和精度。例如: 下面是一些常见的浮点数格式的介绍: FP64(双精 阅读全文
posted @ 2023-11-20 10:08 kkzhang 阅读(69) 评论(0) 推荐(0) 编辑
摘要: (1) PPO Trainer TRL支持PPO Trainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例,请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原 阅读全文
posted @ 2023-11-13 15:44 kkzhang 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 参考Github 开源模型 LLM-Tuning 一、简介 (1)RLHF (基于人类反馈的强化学习) 分为三步: SFT (Supervised Fine-Tuning): 有监督的微调,使用正常的 instruction following 或者对话的样本,来训练模型的基础对话、听从 promp 阅读全文
posted @ 2023-11-09 16:03 kkzhang 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 基于人类反馈的强化学习, RLHF,转载参考链接 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念,可以按三个步骤分解: 预训练一个语言模型 (LM) ; 聚合问答数据并训练一个奖励模型 (Reward Model,RM) ; 用强化学习 (RL) 方式微调 LM。 Step 1. 预训练语言模 阅读全文
posted @ 2023-11-09 10:39 kkzhang 阅读(19) 评论(0) 推荐(0) 编辑
摘要: (跨模态置信度感知的图像文本匹配网络)AAAI 2022 阅读全文
posted @ 2022-07-21 11:16 kkzhang 阅读(2921) 评论(16) 推荐(1) 编辑
摘要: 跨模态语义关联对齐检索-图像文本匹配(Image-Text Matching)最新进展 阅读全文
posted @ 2022-07-07 23:04 kkzhang 阅读(7151) 评论(18) 推荐(4) 编辑
摘要: presentation的视频录制,自动字幕添加 阅读全文
posted @ 2022-05-31 16:02 kkzhang 阅读(986) 评论(0) 推荐(0) 编辑
摘要: (零)注意力模型(Attention Model) 1)本质:【选择重要的部分】,注意力权重的大小体现选择概率值,以非均匀的方式重点关注感兴趣的部分。 2)注意力机制已成为人工智能的一个重要概念,其在计算机视觉、自然语言处理等众多领域得到了广泛的研究和应用。 3)注意力机制模仿了生物观察行为的内部过 阅读全文
posted @ 2022-01-06 16:01 kkzhang 阅读(609) 评论(0) 推荐(0) 编辑
摘要: 为防止遗忘,在空闲时间将读书的笔记开始按照章节进行概括总结(2022.1.1): 第二章:NumPy 入门 第三章:Pandas 数据处理 第四章:Matplotlib 数据可视化 第五章:机器学习 书目: 阅读全文
posted @ 2022-01-01 22:23 kkzhang 阅读(57) 评论(0) 推荐(0) 编辑
摘要: 前言:这个是2018年上半年完成的,这里只贴出硬件设计部分,软件设计部分可以看上位机说明书。 设计总说明 随着科学技术的不断发展,高集成度、高精度、高可靠性的一体化温湿度变送器开始 得到广泛的应用.同时随着应用场景的增多,更多类如管理不及时、数据丢失、响应速度 慢、不便于远距离传输等问题日益凸显.为 阅读全文
posted @ 2021-12-14 11:44 kkzhang 阅读(2010) 评论(0) 推荐(0) 编辑