上一页 1 2 3 4 5 6 7 8 ··· 13 下一页
摘要: 解密prompt系列34. RLHF之训练另辟蹊径:循序渐进 & 青出于蓝 前几章我们讨论了RLHF的样本构建优化和训练策略优化,这一章我们讨论两种不同的RL训练方案,分别是基于过程训练,和使用弱Teacher来监督强Student 循序渐进:PRM & ORM 想要获得过程 阅读全文
posted @ 2024-07-23 07:30 风雨中的小七 阅读(718) 评论(0) 推荐(0)
摘要: 解密Prompt系列33. LLM之图表理解任务-多模态篇 这一章我们聚焦多模态图表数据。先讨论下单纯使用prompt的情况下,图片和文字模态哪种表格模型理解的效果更好更好,再说下和表格相关的图表理解任务的微调方案 阅读全文
posted @ 2024-07-06 10:21 风雨中的小七 阅读(1109) 评论(0) 推荐(0)
摘要: 解密Prompt系列32. LLM之表格理解任务-文本模态 这一章我们聊聊大模型表格理解任务,在大模型时代主要出现在包含表格的RAG任务,以及表格操作数据抽取文本对比等任务中。这一章先聊单一的文本模态,我们分别介绍微调和基于Prompt的两种方案。 阅读全文
posted @ 2024-06-24 07:53 风雨中的小七 阅读(2155) 评论(0) 推荐(0)
摘要: 解密Prompt系列31. LLM Agent之从经验中不断学习的智能体 模型想要完成自主能力进化和自主能力获得,需要通过Self-Reflection from Past Experience来实现。那如何获得经历,把经历转化成经验,并在推理中使用呢?本章介绍三种方案 阅读全文
posted @ 2024-06-11 07:34 风雨中的小七 阅读(1350) 评论(0) 推荐(0)
摘要: 解密Prompt系列30. LLM Agent之互联网冲浪智能体 这一章介绍自主浏览操作网页的WebAgent和数据集:初级MiniWoB++,高级MIND2WEB,可交互WEBARENA,多模态WebVoyager,多轮对话WebLINX,复杂AutoWebGLM 阅读全文
posted @ 2024-05-26 20:07 风雨中的小七 阅读(611) 评论(0) 推荐(1)
摘要: 解密Prompt系列29. LLM Agent之真实世界海量API解决方案:ToolLLM & AnyTool 这一章我们针对真实世界中工具调用的多个问题,介绍微调(ToolLLM)和prompt(AnyTool)两种方案 阅读全文
posted @ 2024-05-23 08:10 风雨中的小七 阅读(830) 评论(0) 推荐(1)
摘要: 解密Prompt系列28. LLM Agent之金融领域摸索:FinMem & FinAgent 本章介绍金融领域大模型智能体,并梳理金融LLM相关资源。大模型智能体当前集中在个股交易决策场景,而使用大模型智能体最显著的优势在于对海量信息的高效处理,存储和信息联想。FinMEM和FinAgent 阅读全文
posted @ 2024-05-06 07:40 风雨中的小七 阅读(2240) 评论(0) 推荐(1)
摘要: 解密prompt系列27. LLM对齐经验之如何降低通用能力损失 这一章我们重点讨论下如何注入某一类任务或能力的同时,尽可能不损失模型原有的通用指令理解能力。这里我们讨论两种方案,来尽可能降低通用能力的损失,一种数据方案,一种训练方案。 阅读全文
posted @ 2024-04-13 12:17 风雨中的小七 阅读(747) 评论(0) 推荐(0)
摘要: 解密prompt系列25. RLHF改良方案之样本标注:RLAIF & SALMON 之前我们主要唠了RLHF训练相关的方案,这一章我们主要针对RLHF的样本构建阶段,引入机器标注来降低人工标注的成本。主要介绍两个方案:RLAIF,和IBM的SALMON 阅读全文
posted @ 2024-03-25 08:37 风雨中的小七 阅读(369) 评论(0) 推荐(0)
摘要: 解密prompt系列26. 人类思考vs模型思考:抽象和发散思维 在Chain of Thought出来后,出现过许多的优化方案,这一章我们类比人类已有的思维方式,就抽象思维和发散思维这两个方向,聊聊step back和diversity prompt 阅读全文
posted @ 2024-03-10 14:37 风雨中的小七 阅读(580) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 13 下一页