第七子007

2025年4月28日

LLM大模型：TTRL: Test-Time Reinforcement Learning分析

摘要： 1、现在大模型在pre-train完成后，肯定还要做post-train，主要目的是学会chat，并且对齐人类的偏好，主要方式就是SFT和RL，详见：https://www.cnblogs.com/theseventhson/p/18760256；做LLM，有三大要素：算力、算法、token数据了！阅读全文

posted @ 2025-04-28 15:53 第七子007 阅读(472) 评论(0) 推荐(0)

2025年4月18日

抖音推荐算法部分模型概述

摘要：抖音，一个世界级知名的app，全球拥有十亿级别的存量用户，其官方于近日发布了最核心的技术之一：推荐算法的部分模型，详见：https://95152.douyin.com/article/15358?enter_from=channel_page&channel=home 就其官方披露的信息看，抖音最阅读全文

posted @ 2025-04-18 15:28 第七子007 阅读(383) 评论(0) 推荐(0)

2025年4月11日

LLM大模型：推荐系统应用-HLLM实战&DSIN

摘要： LLM在NLP领域独领风骚，一战成名！和NLP相比，推荐领域也有类似的业务场景：都是时序数据！既然LLM能在NLP大放异彩，在推荐领域是不是也能尝试一下了？ 1、先简单总结一下推荐系统的发展历史协同过滤 Collaborative Filtering：userCF、ItemCF；原理是根据user 阅读全文

posted @ 2025-04-11 17:38 第七子007 阅读(540) 评论(3) 推荐(0)

2025年3月24日

LLM大模型：post-train实战 - 使用GRPO微调LLM

摘要： deepseek带火了GRPO，更带火了reinforcement learning，让研究人员发现RL能在pre-train的基础上较大提升LLM的逻辑推理能力！当前，互联网高速发展二十多年产生的优质数据已经使用殆尽，所以更大规模的LLM一直难产（GPT-5现在都还没发布，优质token耗尽是核心阅读全文

posted @ 2025-03-24 22:30 第七子007 阅读(2820) 评论(1) 推荐(1)

2025年3月15日

LLM大模型：OpenManus原理

摘要：继deepseek之后，武汉一个开发monica的团队又开发了manus，号称是全球第一个通用的agent！各路自媒体企图复刻下一个deepseek，疯狂报道！然而manus发布后不久，metaGPT团队5个工程师号称耗时3小时就搞定了一个demo版本的manus，取名openManus，才几天时间阅读全文

posted @ 2025-03-15 23:40 第七子007 阅读(2529) 评论(0) 推荐(2)

2025年3月9日

LLM大模型：post-training方法概述

摘要：现目前市面上主流大模型都是分步骤训练出来的： pre-train：让LLM具备初步的存储、记忆和理解知识的能力（目前互联网的优质token已经被耗尽，pre-train几乎走到了尽头，后续就看post-train了！） post-train：让LLM更精准、聪明，能适配某些垂直领域的特定任务！pos 阅读全文

posted @ 2025-03-09 11:40 第七子007 阅读(1725) 评论(0) 推荐(0)

2025年3月7日

LLM大模型：deep research深度研究，吊打传统RAG？

摘要： LLM在2年多前火了后，RAG也跟着火了，因其解决了当时LLM的一些缺陷问题：可解释性：数据来自知识库，能找到出处幻觉：最后一步LLM生成response的内容都来自语义相关的chunk，缩小了LLM的生成范围，能在一定程度上避免幻觉时效性：一旦有新数据，加入知识库、向量数据库即可，不需要再微阅读全文

posted @ 2025-03-07 22:42 第七子007 阅读(1330) 评论(0) 推荐(0)

2025年2月27日

LLM大模型：deepseek浅度解析(四)：Native Sparse Attention NSA原理

摘要： deepseek又整活了啊，2025.2.16的时候又发布了 "Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention"，核心是解决attention计算耗时耗算力的问题！NSA具体又是怎么做阅读全文

posted @ 2025-02-27 15:09 第七子007 阅读(1578) 评论(1) 推荐(1)

2025年2月24日

LLM大模型：kimi k1.5 VS deepseek R1

摘要： 2025春节期间IT圈最火爆的莫过于deepseek了，R1模型利用reinforcement learning掀起了滔天巨浪，一时间deepseek无人不知，无人不晓！但其实和R1同一时间发布的还有kimi k1.5,也是通过强化学习提升reasoning性能的，但可能是因为deepseek做了部阅读全文

posted @ 2025-02-24 12:22 第七子007 阅读(556) 评论(0) 推荐(0)

2025年2月5日

LLM大模型：deepseek浅度解析(三)：R1的reinforcement learning GRPO复现

摘要： deepseek-R1比较创新的点就是reward函数了，其自创的GRPO方法，详解如下：https://www.cnblogs.com/theseventhson/p/18696408 训练出了R1-zero和R1两个强化学习版本！幸运的是，GRPO的这个算法已经有人实现，并集成到huggingf 阅读全文

posted @ 2025-02-05 18:00 第七子007 阅读(3233) 评论(0) 推荐(2)

公告