kkzhang - 博客园

2026年2月8日

可解释人工智能-Concept Bottleneck Models-概念瓶颈模型用于可解释决策：进展、分类体系与未来方向综述

摘要：深度神经网络虽然表现出优异的性能，但其不透明性限制了其在需要透明度和人工监管的高风险领域中的应用。概念瓶颈模型(Concept Bottleneck Models, CBMs)通过引入一个人类可理解的概念层来连接输入与决策，从而解决了这一差距，实现了语义解释和测试时干预。本综述从四个维度提供了一个统一的CBMs概览：概念获取、基于概念的决策制定、概念干预和概念评估。我们总结了概念构建的演变过程，从人工标注到基于词典的挖掘、大语言模型(LLM)/视觉语言模型(VLM）引导的生成，以及通过原型和扩散模型实现的视觉关联发现；回顾了超越严格瓶颈的新兴CBM架构；并整合了强调忠实度、稀疏性和可干预性的评估与干预协议，这些对医疗保健等高风险领域尤为重要。我们综合了零散的文献，并勾勒了基于概念的可解释决策面临的关键挑战和未来方向。阅读全文

posted @ 2026-02-08 19:27 kkzhang 阅读(122) 评论(0) 推荐(0)

2024年6月25日

视觉语言跨模态特征语义相似度计算改进--表征空间维度语义依赖感知聚合算法 ACM MM

摘要：视觉语言跨模态特征语义相似度计算改进--表征空间维度语义依赖感知聚合算法 ACM MM 阅读全文

posted @ 2024-06-25 23:46 kkzhang 阅读(958) 评论(0) 推荐(0)

2024年1月15日

DPO: Direct Preference Optimization 直接偏好优化（学习笔记）

摘要：学习参考：链接1 一、为什么要提出DPO 在之前，我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段：全监督微调（SFT）、奖励模型（RM）、强化学习（PPO）。但是RLHF面临缺陷：RLHF 是一个复杂且经常不稳定的过程，首先拟合反映人类偏好的奖励模型，然后使用强化学习微调大型无监督 LM，阅读全文

posted @ 2024-01-15 09:56 kkzhang 阅读(50870) 评论(0) 推荐(1)

2023年12月27日

Latex 公式如何转为Word 公式，免费线上网站

摘要：在实际中，我们常常需要讲将latex公式在word中书写。不采用手敲word公式，如何直接从Latex公式转word公式：非常好的网站：https://www.latexlive.com/ 可以直接复制公式到word中粘贴，省去很大的负担！阅读全文

posted @ 2023-12-27 21:36 kkzhang 阅读(11984) 评论(0) 推荐(2)

2023年12月13日

Python 知识点

摘要： 1、字格式化输出： .lower() 全部小写 .upper() 全部大写 .title() 各个字符的首字母大写 .capitalize() 首字母大写 .strip() 删除两边空格 .lstrip() 删除左边空格 .rstrip() 删除右边空格 .replace(" ","") 删除所有空阅读全文

posted @ 2023-12-13 21:53 kkzhang 阅读(62) 评论(0) 推荐(0)

2023年11月20日

浮点数格式：FP64, FP32, FP16, BFLOAT16, TF32之间的相互区别

摘要：浮点数格式（参考1，参考2）浮点数是一种用二进制表示的实数，它由三个部分组成：sign（符号位）、exponent（指数位）和fraction（小数位）。不同的浮点数格式有不同的位数分配给这三个部分，从而影响了它们能表示的数值范围和精度。例如：下面是一些常见的浮点数格式的介绍： FP64（双精阅读全文

posted @ 2023-11-20 10:08 kkzhang 阅读(19226) 评论(0) 推荐(1)

2023年11月13日

TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记

摘要： (1) PPO Trainer TRL支持PPO Trainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例，请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原阅读全文

posted @ 2023-11-13 15:44 kkzhang 阅读(4143) 评论(0) 推荐(0)

2023年11月9日

基于LoRA的RLHF

摘要：参考Github 开源模型 LLM-Tuning 一、简介（1）RLHF (基于人类反馈的强化学习) 分为三步： SFT (Supervised Fine-Tuning): 有监督的微调，使用正常的 instruction following 或者对话的样本，来训练模型的基础对话、听从 promp 阅读全文

posted @ 2023-11-09 16:03 kkzhang 阅读(2342) 评论(0) 推荐(0)

基于人类反馈的强化学习，Reinforcement Learning from Human Feedback (RLHF)

摘要：基于人类反馈的强化学习， RLHF，转载参考链接 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，可以按三个步骤分解：预训练一个语言模型 (LM) ；聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；用强化学习 (RL) 方式微调 LM。 Step 1. 预训练语言模阅读全文

posted @ 2023-11-09 10:39 kkzhang 阅读(2871) 评论(0) 推荐(1)

2023年3月27日

部分常用代码整理

摘要：获取 top-K 的检索数据def i2t(images, sims, npts=None, return_ranks=False): """ Images->Text (Image Annotation) Images: (N, n_region, d) matrix of images Capt 阅读全文

posted @ 2023-03-27 11:45 kkzhang 阅读(63) 评论(0) 推荐(0)

Dream

公告