大模型实战 - 随笔分类(第2页) - 第七子007

LLM大模型：deepseek浅度解析(二)：R1的GRPO原理

摘要：chatGPT3.5、4.0、4o这些版本发布后，因为效果相比以往的NLP产品比，确实有质的提升，所以引起了很大的轰动。但也有部分AI学术巨头吐槽说transformer架构根本不是真正的AGI，原理上讲本质就是个统计模型：通过海量训练数据的统计信息来计算next token的概率，并不具备真正的思阅读全文

posted @ 2025-02-02 12:42 第七子007 阅读(8801) 评论(1) 推荐(2)

LLM大模型：deepseek浅度解析(一)：V3的差异化

摘要：这几天被deepseek刷屏了：凡是和AI沾边的博主，无一例外不介绍deepseek的！一时间deepseek热度蹭蹭上窜，风头无限，看的其他国产AI大模型厂商直瞪眼！deepseek是一家叫做幻方的量化投资公司出品，可谓是师出名门，这个大模型到底有啥独特之处了？一个大模型的效果好不好，主要看以下阅读全文

posted @ 2025-01-27 21:42 第七子007 阅读(4106) 评论(0) 推荐(0)

LLM大模型：Process Reinforcement through Implicit Rewards：PRIME 强化学习模型分析，超过GPT-4o？

摘要：1、众所周知，可商用的成熟大模型训练分四个步骤： pre-train：大量未标记的语料做auto-regression，此步骤初步完成LLM权重的赋值。经过此阶段的LLM，类似人类小学生的水平，还无法有针对性的回答问题; supervised Fine-tuning：用 {instruction,i 阅读全文

posted @ 2025-01-13 14:52 第七子007 阅读(610) 评论(0) 推荐(1)

LLM大模型：Reinforcement Learning-强化学习中思维链中COT、TOT和GOT的前世今生

摘要：这一轮爆火的AI热潮是被transformer架构点燃的，根据scanling law的观点， transformer这个架构有个显著的特点：大力出奇迹！计算量C=6*ND，N是模型参数，D是token数。N越大，网络压缩、承载信息的能力越大，但是需要的token也就越多，需要的算力也越多，这就是阅读全文

posted @ 2025-01-07 15:52 第七子007 阅读(1383) 评论(0) 推荐(0)

LLM大模型: 多模态特征提取网络架构feather engineering侧的奇技淫巧

摘要：传统的机器学习，用的分类器或回归模型，诸如logistics regression/softmax、svm、naive bayes、decision tree、random forest、GBDT、xgboost等，最核心的要点就是要人工构造特征了。好的特征能让准确率、覆盖率等指标提升十几个~几十个阅读全文

posted @ 2024-12-20 17:46 第七子007 阅读(1172) 评论(0) 推荐(0)

LLM大模型: mamba的诞生和改进点

摘要：transformer的核心attention机制效果出奇地好，诞生了chatGPT这种里程碑式milestone的产品，但是attention机制本身的缺点也很明显：time & space complexity 高达 O(N^2)； transformer架构2017年发的论文，至今已7年了，时阅读全文

posted @ 2024-12-12 09:33 第七子007 阅读(664) 评论(0) 推荐(0)

LLM大模型: CV领域常见attention思路变种及其作用(二)

摘要：attention机制的效果非凡，但本身也是有缺陷的：Q*K矩阵的复杂度高达O(n^2)；如果用在CV领域，还涉及到如下问题：局部性、全局性稀疏性多尺度问题为了更好地把attention机制应用于CV，上述的几个问题是需要解决的！ 1、DilateFormer: Multi-Scale Di 阅读全文

posted @ 2024-12-04 11:45 第七子007 阅读(259) 评论(0) 推荐(0)

LLM大模型: CV领域常见attention思路变种及其作用(一)

摘要：多年前做传统的机器学习，主要用的是LR、SVM、bayes、浅层nerual network、decision tree、random forest、GBDT等，这些分类或回归模型要想AUC、ROC等指标高，最核心的就是构造特征了！为此还专门诞生了一个细分领域：feather enginering，阅读全文

posted @ 2024-11-29 15:19 第七子007 阅读(313) 评论(0) 推荐(1)

LLM大模型: Segment Anything Model原理详解

摘要：meta在2023.4.5又发了image sematic segmentation的文章，名字就叫Segment Anything；学术圈有个潜规则：title越简单，事情越大，比如7年前的那篇 attention is all you need，直接提升了nlp的层次！这次的Segment An 阅读全文

posted @ 2024-11-04 11:44 第七子007 阅读(3127) 评论(0) 推荐(0)

LLM大模型: Maskformer/Mask2Former语义分割原理详解

摘要：1、自动驾驶、机器人、电商、监控等行业都涉及到image的sematic segmentation，传统的方式：per-pixel classification，每个像素点都要分类；如果进一步做 instance-level segmentation，可能还要改network architure后重阅读全文

posted @ 2024-10-30 17:36 第七子007 阅读(2820) 评论(0) 推荐(0)

LLM大模型: blip2/blip3多模态大模型原理

摘要：截止目前，图片检索领域最出名的应该是openAI的clip了，分别用bert和vit对text和image做encoder，然后让配对的embedding接近，不配对的embedding拉远，通过这种方法达到text匹配（检索）image的目的！但这种方式只能检索，没法生成text啊（比如对imag 阅读全文

posted @ 2024-10-21 17:14 第七子007 阅读(2966) 评论(0) 推荐(1)

LLM大模型: diffusion transformer Dit原理和核心代码

摘要：现阶段，主流文生图的思路就是DDPM了：先随机生成N~(0,1)的噪声图，然后逐步denoise，迭代1000次左右得到text指定的图；其中最核心的莫过于denoise时生成的noise图片：每次需要根据输入时间t、文本text和noise latent生成合适的noise图片。之前介绍了unet 阅读全文

posted @ 2024-10-01 20:01 第七子007 阅读(3007) 评论(0) 推荐(0)

LLM大模型: 生成式模型generative model SD和VAE的数学原理和prompt融入image

摘要：1、（1）上文介绍了DDPM生成图片的原理和代码测试结果，训练时给样本图片加上gaussian noise，预测时也是预测gaussian noise；这里为啥要用gaussian distribution？为啥不用其他的分布？高斯分布相对比较简单，只有两个参数：均值和方差，容易控制；为啥一张阅读全文

posted @ 2024-09-25 17:09 第七子007 阅读(253) 评论(0) 推荐(0)

LLM大模型: Denoising Diffusion Probabilistic Models 原理解析与核心代码

摘要：根据文本生成图片是AI的核心应用之一，2020年后主流的生成方式都是基于Denoising Diffusion Probabilistic Models原理的，逐渐替代了之前使用GAN的方式生成图片！那么DDPM为啥能取代GAN了？其优势在哪？或者说GAN的劣势在哪？ 1、CLIP模型都知道吧？ t 阅读全文

posted @ 2024-09-23 15:57 第七子007 阅读(546) 评论(0) 推荐(0)

LLM大模型：LLaVa多模态图片检索原理

摘要：训练安全垂直领域的LLM，会用到很多著名安全论坛(52pojie\kanxue\xianzhi\freebuf等)、博客的数据，这些数据100%都有很多图片（文不如图嘛，图片比文字更直观，更容易表达业务意义），之前微调LLM只能使用文字，图片只能丢弃，非常可惜，需要利用多模态的技术充分提取图片信息！阅读全文

posted @ 2024-08-08 17:32 第七子007 阅读(3852) 评论(1) 推荐(2)

LLM大模型：推理优化-PTQ int8量化

摘要：前面介绍的推理优化方法都有缺陷： knowledge distillation：需要样本数据训练student，同时要大量算力更新student参数 vLLM：通过page attention，减少显存浪费，充分利用碎片化的显存，并未减少算力以上两种推理优化的方式都有缺陷，为了弥补上述缺陷，需要新阅读全文

posted @ 2024-08-03 21:13 第七子007 阅读(1359) 评论(0) 推荐(0)

LLM大模型：deepspeed实战和原理解析

摘要：多年前搞大数据，因为单节点无力存储和计算PB级别的数据，所以hadoop这种分布式存储和计算框架是标配！如今搞大模型，仍然需要对大量样本数据做计算，因为涉及矩阵运算，单机单卡运算效率太低，也涉及到分布式计算了，大模型时代的分布式pre-train和Inference框架就有现成的—deepspeed 阅读全文

posted @ 2024-07-28 23:29 第七子007 阅读(4022) 评论(0) 推荐(0)

LLM大模型：推理优化-vLLM显存使用优化

摘要：1、众所周知，transformer架构取得了巨大的成功，核心原因之一就是attention的引入。当年那篇论文的名称就叫attention is all you need，可见attention机制在transformer中的巨大作用！attention的计算示意图如下：同一个sequence中阅读全文

posted @ 2024-07-22 17:36 第七子007 阅读(6257) 评论(0) 推荐(0)

LLM大模型：推理优化-知识蒸馏

摘要：1、有些模型比较大，推理时的效果还不错，但非常耗费计算资源；并且产生token的速度也很慢，大概1秒1个token(我的RAG在最后一步使用的secGPT-13B大概就是这个速度)，一个问题回答完毕要耗费分钟级别的时间，用户直接抓狂，继续提升推理的速度！大模型本质是大量的矩阵运算，想要提高效率，就阅读全文

posted @ 2024-07-16 17:00 第七子007 阅读(2793) 评论(1) 推荐(0)

LLM大模型: 常用的数据清洗方法总结

摘要：LLM的三大要素：算力：算力的本质是拼财力，普通人是无力改变的；算法/模型结构：目前最流行的还是transformer架构，各种LLM都是基于transformer改细节，暂时没有用新的框架替代transformer。至于后续manba会不会替代transformer架构，有待观察！数据：这阅读全文

posted @ 2024-07-10 23:13 第七子007 阅读(7257) 评论(0) 推荐(0)

第七子007

随笔分类 - 大模型实战

公告