上一页 1 2 3 4 5 6 ··· 22 下一页
摘要: 1、现在大模型在pre-train完成后,肯定还要做post-train,主要目的是学会chat,并且对齐人类的偏好,主要方式就是SFT和RL,详见:https://www.cnblogs.com/theseventhson/p/18760256;做LLM,有三大要素:算力、算法、token数据了! 阅读全文
posted @ 2025-04-28 15:53 第七子007 阅读(472) 评论(0) 推荐(0)
摘要: 抖音,一个世界级知名的app,全球拥有十亿级别的存量用户,其官方于近日发布了最核心的技术之一:推荐算法的部分模型,详见:https://95152.douyin.com/article/15358?enter_from=channel_page&channel=home 就其官方披露的信息看,抖音最 阅读全文
posted @ 2025-04-18 15:28 第七子007 阅读(383) 评论(0) 推荐(0)
摘要: LLM在NLP领域独领风骚,一战成名!和NLP相比,推荐领域也有类似的业务场景:都是时序数据!既然LLM能在NLP大放异彩,在推荐领域是不是也能尝试一下了? 1、先简单总结一下推荐系统的发展历史 协同过滤 Collaborative Filtering:userCF、ItemCF;原理是根据user 阅读全文
posted @ 2025-04-11 17:38 第七子007 阅读(540) 评论(3) 推荐(0)
摘要: deepseek带火了GRPO,更带火了reinforcement learning,让研究人员发现RL能在pre-train的基础上较大提升LLM的逻辑推理能力!当前,互联网高速发展二十多年产生的优质数据已经使用殆尽,所以更大规模的LLM一直难产(GPT-5现在都还没发布,优质token耗尽是核心 阅读全文
posted @ 2025-03-24 22:30 第七子007 阅读(2820) 评论(1) 推荐(1)
摘要: 继deepseek之后,武汉一个开发monica的团队又开发了manus,号称是全球第一个通用的agent!各路自媒体企图复刻下一个deepseek,疯狂报道!然而manus发布后不久,metaGPT团队5个工程师号称耗时3小时就搞定了一个demo版本的manus,取名openManus,才几天时间 阅读全文
posted @ 2025-03-15 23:40 第七子007 阅读(2529) 评论(0) 推荐(2)
摘要: 现目前市面上主流大模型都是分步骤训练出来的: pre-train:让LLM具备初步的存储、记忆和理解知识的能力(目前互联网的优质token已经被耗尽,pre-train几乎走到了尽头,后续就看post-train了!) post-train:让LLM更精准、聪明,能适配某些垂直领域的特定任务!pos 阅读全文
posted @ 2025-03-09 11:40 第七子007 阅读(1725) 评论(0) 推荐(0)
摘要: LLM在2年多前火了后,RAG也跟着火了,因其解决了当时LLM的一些缺陷问题: 可解释性:数据来自知识库,能找到出处 幻觉:最后一步LLM生成response的内容都来自语义相关的chunk,缩小了LLM的生成范围,能在一定程度上避免幻觉 时效性:一旦有新数据,加入知识库、向量数据库即可,不需要再微 阅读全文
posted @ 2025-03-07 22:42 第七子007 阅读(1330) 评论(0) 推荐(0)
摘要: deepseek又整活了啊,2025.2.16的时候又发布了 "Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention",核心是解决attention计算耗时耗算力的问题!NSA具体又是怎么做 阅读全文
posted @ 2025-02-27 15:09 第七子007 阅读(1578) 评论(1) 推荐(1)
摘要: 2025春节期间IT圈最火爆的莫过于deepseek了,R1模型利用reinforcement learning掀起了滔天巨浪,一时间deepseek无人不知,无人不晓!但其实和R1同一时间发布的还有kimi k1.5,也是通过强化学习提升reasoning性能的,但可能是因为deepseek做了部 阅读全文
posted @ 2025-02-24 12:22 第七子007 阅读(556) 评论(0) 推荐(0)
摘要: deepseek-R1比较创新的点就是reward函数了,其自创的GRPO方法,详解如下:https://www.cnblogs.com/theseventhson/p/18696408 训练出了R1-zero和R1两个强化学习版本!幸运的是,GRPO的这个算法已经有人实现,并集成到huggingf 阅读全文
posted @ 2025-02-05 18:00 第七子007 阅读(3233) 评论(0) 推荐(2)
上一页 1 2 3 4 5 6 ··· 22 下一页