随笔分类 -  大模型实战

摘要:1、近期,deepseek-3.2-EXP发布,价格大幅下降,如下: 价格大幅下降,这是谁给的底气了?必定是成本大幅下降呗,否则不得亏死?那么问题又来了:成本又是怎么大幅下降的了? 2、时至今日,尽管被各种吐槽(其中不乏yan lecun、feifeili等top级学术大佬),但商用的主流LLM架构 阅读全文
posted @ 2025-10-03 16:12 第七子007 阅读(49) 评论(0) 推荐(0)
摘要:1、近期,国内LLM头号玩家阿里发布了Qwen3-Next-80B模型,但从名字上看就和其之前发布的模型不同:多了next!这就奇怪了:为啥会多出一个next?这个next究竟是啥意思了? 2、自从3年前 chatGPT 3.5发布后,AI又开始大火,就是因为效果比传统的机器学习好10倍!效果为啥好 阅读全文
posted @ 2025-09-18 18:16 第七子007 阅读(164) 评论(0) 推荐(0)
摘要:目前LLM的训练范式不外乎这么几步:pre-train、SFT、RL,每个步骤都有自己的作用,比如: pre-train:把训练预料的知识压缩到neural的结点 SFT:初步学会问答 RL:和人类的偏好对齐 经过上述三步骤后,LLM的效果会有很大提升,然鹅还是摆脱不了目前的一大困境:本质还是个st 阅读全文
posted @ 2025-06-30 14:52 第七子007 阅读(112) 评论(0) 推荐(0)
摘要:这轮AI热潮起于2022.10月chatGPT 3.5的发布,其智能程度颠覆了以往任何同类产品,一下就引爆了关注!后来持续迭代,又率先提出了COT的模式:在正式回答问题前先think一段,根据整个思考的过程再给出最终的答案,这就是o1;尽管LLM的效果是越来越好,但还是有人跳出来“唱反调”,吐槽LL 阅读全文
posted @ 2025-06-13 18:25 第七子007 阅读(204) 评论(0) 推荐(1)
摘要:前两次用SHAP框架可视化解释了bitcoin price预测和credit fraud detection这种anomaly detection,今天继续以推荐系统为样本对SHAP的使用做可视化分析! 1、数据集还是来自天池:https://tianchi.aliyun.com/dataset/5 阅读全文
posted @ 2025-06-13 10:17 第七子007 阅读(80) 评论(0) 推荐(0)
摘要:之前做了bitcoin price预测的可视化解释,这次继续做个anomaly detection相关的业务,就用比较常见的信用卡欺诈检测啦,还是用天池上现成的数据集,如下:https://tianchi.aliyun.com/dataset/92665 这次用application_data来做测 阅读全文
posted @ 2025-05-31 23:39 第七子007 阅读(99) 评论(0) 推荐(0)
摘要:RL的领域越来越炸裂了,近期又有团队开源了 Zero Data 做reinforcement learning的方法:在post train阶段,做RL时 Absolute Zero data,听名字是不是很炸裂啊!先来回顾一下LLM领域做RL的历史阶段: 最早是PPO/DPO等方式,需要人工标注数 阅读全文
posted @ 2025-05-29 18:07 第七子007 阅读(191) 评论(0) 推荐(0)
摘要:1、传统机器学习按照目标划分,无非就是两种:分类、回归;不论是哪种,对于业务部门来说都有一大“硬伤”:可解释性!本人以前在某厂数据运营部做数据相关工作,平日里一大痛点:需要给业务人员做各种解释!比如使用xgboost发现某个账号被盗用的风险较大,提交运营人员后,别人会反问:为啥这个账号风险大?总要给 阅读全文
posted @ 2025-05-27 22:54 第七子007 阅读(161) 评论(0) 推荐(0)
摘要:5.1除了deepseek-prover-v2发布,Qwen也发布了3版本,官方展示的性能对比测试如下: 既然是官方发布的,效果肯定比友商的好,否则没必要发布出来了!那么灵魂拷问又来了:这么好的性能是怎么来的?大模型性能决定要素: 算力:迭代次数多,性能明显好 数据:互联网高质量数据筛选 网络架构: 阅读全文
posted @ 2025-05-06 22:47 第七子007 阅读(1820) 评论(0) 推荐(0)
摘要:1、5.1假期,deepseek又整活了,不过这次并不是万众期待的R2通用推理模型,而是Prover-V2,主打 formal theorem proving in Lean 4,简单理解就是数学定理的证明,在几大数据集的测试结果如下: 所以现在大家最关心的是:这么好的效果,都是怎么做到的? 这次开 阅读全文
posted @ 2025-05-02 21:46 第七子007 阅读(315) 评论(0) 推荐(0)
摘要:1、现在大模型在pre-train完成后,肯定还要做post-train,主要目的是学会chat,并且对齐人类的偏好,主要方式就是SFT和RL,详见:https://www.cnblogs.com/theseventhson/p/18760256;做LLM,有三大要素:算力、算法、token数据了! 阅读全文
posted @ 2025-04-28 15:53 第七子007 阅读(452) 评论(0) 推荐(0)
摘要:抖音,一个世界级知名的app,全球拥有十亿级别的存量用户,其官方于近日发布了最核心的技术之一:推荐算法的部分模型,详见:https://95152.douyin.com/article/15358?enter_from=channel_page&channel=home 就其官方披露的信息看,抖音最 阅读全文
posted @ 2025-04-18 15:28 第七子007 阅读(355) 评论(0) 推荐(0)
摘要:LLM在NLP领域独领风骚,一战成名!和NLP相比,推荐领域也有类似的业务场景:都是时序数据!既然LLM能在NLP大放异彩,在推荐领域是不是也能尝试一下了? 1、先简单总结一下推荐系统的发展历史 协同过滤 Collaborative Filtering:userCF、ItemCF;原理是根据user 阅读全文
posted @ 2025-04-11 17:38 第七子007 阅读(498) 评论(3) 推荐(0)
摘要:deepseek带火了GRPO,更带火了reinforcement learning,让研究人员发现RL能在pre-train的基础上较大提升LLM的逻辑推理能力!当前,互联网高速发展二十多年产生的优质数据已经使用殆尽,所以更大规模的LLM一直难产(GPT-5现在都还没发布,优质token耗尽是核心 阅读全文
posted @ 2025-03-24 22:30 第七子007 阅读(2754) 评论(1) 推荐(1)
摘要:继deepseek之后,武汉一个开发monica的团队又开发了manus,号称是全球第一个通用的agent!各路自媒体企图复刻下一个deepseek,疯狂报道!然而manus发布后不久,metaGPT团队5个工程师号称耗时3小时就搞定了一个demo版本的manus,取名openManus,才几天时间 阅读全文
posted @ 2025-03-15 23:40 第七子007 阅读(2503) 评论(0) 推荐(2)
摘要:现目前市面上主流大模型都是分步骤训练出来的: pre-train:让LLM具备初步的存储、记忆和理解知识的能力(目前互联网的优质token已经被耗尽,pre-train几乎走到了尽头,后续就看post-train了!) post-train:让LLM更精准、聪明,能适配某些垂直领域的特定任务!pos 阅读全文
posted @ 2025-03-09 11:40 第七子007 阅读(1626) 评论(0) 推荐(0)
摘要:LLM在2年多前火了后,RAG也跟着火了,因其解决了当时LLM的一些缺陷问题: 可解释性:数据来自知识库,能找到出处 幻觉:最后一步LLM生成response的内容都来自语义相关的chunk,缩小了LLM的生成范围,能在一定程度上避免幻觉 时效性:一旦有新数据,加入知识库、向量数据库即可,不需要再微 阅读全文
posted @ 2025-03-07 22:42 第七子007 阅读(1308) 评论(0) 推荐(0)
摘要:deepseek又整活了啊,2025.2.16的时候又发布了 "Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention",核心是解决attention计算耗时耗算力的问题!NSA具体又是怎么做 阅读全文
posted @ 2025-02-27 15:09 第七子007 阅读(1486) 评论(1) 推荐(1)
摘要:2025春节期间IT圈最火爆的莫过于deepseek了,R1模型利用reinforcement learning掀起了滔天巨浪,一时间deepseek无人不知,无人不晓!但其实和R1同一时间发布的还有kimi k1.5,也是通过强化学习提升reasoning性能的,但可能是因为deepseek做了部 阅读全文
posted @ 2025-02-24 12:22 第七子007 阅读(547) 评论(0) 推荐(0)
摘要:deepseek-R1比较创新的点就是reward函数了,其自创的GRPO方法,详解如下:https://www.cnblogs.com/theseventhson/p/18696408 训练出了R1-zero和R1两个强化学习版本!幸运的是,GRPO的这个算法已经有人实现,并集成到huggingf 阅读全文
posted @ 2025-02-05 18:00 第七子007 阅读(3206) 评论(0) 推荐(2)