2025 年 3月随笔档案 - 第七子007

LLM大模型：post-train实战 - 使用GRPO微调LLM

摘要：deepseek带火了GRPO，更带火了reinforcement learning，让研究人员发现RL能在pre-train的基础上较大提升LLM的逻辑推理能力！当前，互联网高速发展二十多年产生的优质数据已经使用殆尽，所以更大规模的LLM一直难产（GPT-5现在都还没发布，优质token耗尽是核心阅读全文

posted @ 2025-03-24 22:30 第七子007 阅读(3229) 评论(1) 推荐(1)

LLM大模型：OpenManus原理

摘要：继deepseek之后，武汉一个开发monica的团队又开发了manus，号称是全球第一个通用的agent！各路自媒体企图复刻下一个deepseek，疯狂报道！然而manus发布后不久，metaGPT团队5个工程师号称耗时3小时就搞定了一个demo版本的manus，取名openManus，才几天时间阅读全文

posted @ 2025-03-15 23:40 第七子007 阅读(2582) 评论(0) 推荐(2)

LLM大模型：post-training方法概述

摘要：现目前市面上主流大模型都是分步骤训练出来的： pre-train：让LLM具备初步的存储、记忆和理解知识的能力（目前互联网的优质token已经被耗尽，pre-train几乎走到了尽头，后续就看post-train了！） post-train：让LLM更精准、聪明，能适配某些垂直领域的特定任务！pos 阅读全文

posted @ 2025-03-09 11:40 第七子007 阅读(1968) 评论(0) 推荐(0)

LLM大模型：deep research深度研究，吊打传统RAG？

摘要：LLM在2年多前火了后，RAG也跟着火了，因其解决了当时LLM的一些缺陷问题：可解释性：数据来自知识库，能找到出处幻觉：最后一步LLM生成response的内容都来自语义相关的chunk，缩小了LLM的生成范围，能在一定程度上避免幻觉时效性：一旦有新数据，加入知识库、向量数据库即可，不需要再微阅读全文

posted @ 2025-03-07 22:42 第七子007 阅读(1412) 评论(0) 推荐(0)

第七子007

03 2025 档案

公告