随笔分类 -  大模型实战

摘要:chatGPT3.5、4.0、4o这些版本发布后,因为效果相比以往的NLP产品比,确实有质的提升,所以引起了很大的轰动。但也有部分AI学术巨头吐槽说transformer架构根本不是真正的AGI,原理上讲本质就是个统计模型:通过海量训练数据的统计信息来计算next token的概率,并不具备真正的思 阅读全文
posted @ 2025-02-02 12:42 第七子007 阅读(8801) 评论(1) 推荐(2)
摘要:这几天被deepseek刷屏了:凡是和AI沾边的博主,无一例外不介绍deepseek的!一时间deepseek热度蹭蹭上窜,风头无限,看的其他国产AI大模型厂商直瞪眼!deepseek是一家叫做幻方的量化投资公司出品,可谓是师出名门,这个大模型到底有啥独特之处了? 一个大模型的效果好不好,主要看以下 阅读全文
posted @ 2025-01-27 21:42 第七子007 阅读(4106) 评论(0) 推荐(0)
摘要:1、众所周知,可商用的成熟大模型训练分四个步骤: pre-train:大量未标记的语料做auto-regression,此步骤初步完成LLM权重的赋值。经过此阶段的LLM,类似人类小学生的水平,还无法有针对性的回答问题; supervised Fine-tuning:用 {instruction,i 阅读全文
posted @ 2025-01-13 14:52 第七子007 阅读(610) 评论(0) 推荐(1)
摘要:这一轮爆火的AI热潮是被transformer架构点燃的, 根据scanling law的观点, transformer这个架构有个显著的特点:大力出奇迹!计算量C=6*ND,N是模型参数,D是token数。N越大,网络压缩、承载信息的能力越大,但是需要的token也就越多,需要的算力也越多,这就是 阅读全文
posted @ 2025-01-07 15:52 第七子007 阅读(1383) 评论(0) 推荐(0)
摘要:传统的机器学习,用的分类器或回归模型,诸如logistics regression/softmax、svm、naive bayes、decision tree、random forest、GBDT、xgboost等,最核心的要点就是要人工构造特征了。好的特征能让准确率、覆盖率等指标提升十几个~几十个 阅读全文
posted @ 2024-12-20 17:46 第七子007 阅读(1172) 评论(0) 推荐(0)
摘要:transformer的核心attention机制效果出奇地好,诞生了chatGPT这种里程碑式milestone的产品,但是attention机制本身的缺点也很明显:time & space complexity 高达 O(N^2); transformer架构2017年发的论文,至今已7年了,时 阅读全文
posted @ 2024-12-12 09:33 第七子007 阅读(664) 评论(0) 推荐(0)
摘要:attention机制的效果非凡,但本身也是有缺陷的:Q*K矩阵的复杂度高达O(n^2);如果用在CV领域,还涉及到如下问题: 局部性、全局性 稀疏性 多尺度问题 为了更好地把attention机制应用于CV,上述的几个问题是需要解决的! 1、DilateFormer: Multi-Scale Di 阅读全文
posted @ 2024-12-04 11:45 第七子007 阅读(259) 评论(0) 推荐(0)
摘要:多年前做传统的机器学习,主要用的是LR、SVM、bayes、浅层nerual network、decision tree、random forest、GBDT等,这些分类或回归模型要想AUC、ROC等指标高,最核心的就是构造特征了!为此还专门诞生了一个细分领域:feather enginering, 阅读全文
posted @ 2024-11-29 15:19 第七子007 阅读(313) 评论(0) 推荐(1)
摘要:meta在2023.4.5又发了image sematic segmentation的文章,名字就叫Segment Anything;学术圈有个潜规则:title越简单,事情越大,比如7年前的那篇 attention is all you need,直接提升了nlp的层次!这次的Segment An 阅读全文
posted @ 2024-11-04 11:44 第七子007 阅读(3127) 评论(0) 推荐(0)
摘要:1、自动驾驶、机器人、电商、监控等行业都涉及到image的sematic segmentation,传统的方式:per-pixel classification,每个像素点都要分类;如果进一步做 instance-level segmentation,可能还要改network architure后重 阅读全文
posted @ 2024-10-30 17:36 第七子007 阅读(2820) 评论(0) 推荐(0)
摘要:截止目前,图片检索领域最出名的应该是openAI的clip了,分别用bert和vit对text和image做encoder,然后让配对的embedding接近,不配对的embedding拉远,通过这种方法达到text匹配(检索)image的目的!但这种方式只能检索,没法生成text啊(比如对imag 阅读全文
posted @ 2024-10-21 17:14 第七子007 阅读(2966) 评论(0) 推荐(1)
摘要:现阶段,主流文生图的思路就是DDPM了:先随机生成N~(0,1)的噪声图,然后逐步denoise,迭代1000次左右得到text指定的图;其中最核心的莫过于denoise时生成的noise图片:每次需要根据输入时间t、文本text和noise latent生成合适的noise图片。之前介绍了unet 阅读全文
posted @ 2024-10-01 20:01 第七子007 阅读(3007) 评论(0) 推荐(0)
摘要:1、(1)上文介绍了DDPM生成图片的原理和代码测试结果,训练时给样本图片加上gaussian noise,预测时也是预测gaussian noise; 这里为啥要用gaussian distribution?为啥不用其他的分布? 高斯分布相对比较简单,只有两个参数:均值和方差,容易控制; 为啥一张 阅读全文
posted @ 2024-09-25 17:09 第七子007 阅读(253) 评论(0) 推荐(0)
摘要:根据文本生成图片是AI的核心应用之一,2020年后主流的生成方式都是基于Denoising Diffusion Probabilistic Models原理的,逐渐替代了之前使用GAN的方式生成图片!那么DDPM为啥能取代GAN了?其优势在哪?或者说GAN的劣势在哪? 1、CLIP模型都知道吧? t 阅读全文
posted @ 2024-09-23 15:57 第七子007 阅读(546) 评论(0) 推荐(0)
摘要:训练安全垂直领域的LLM,会用到很多著名安全论坛(52pojie\kanxue\xianzhi\freebuf等)、博客的数据,这些数据100%都有很多图片(文不如图嘛,图片比文字更直观,更容易表达业务意义),之前微调LLM只能使用文字,图片只能丢弃,非常可惜,需要利用多模态的技术充分提取图片信息! 阅读全文
posted @ 2024-08-08 17:32 第七子007 阅读(3852) 评论(1) 推荐(2)
摘要:前面介绍的推理优化方法都有缺陷: knowledge distillation:需要样本数据训练student,同时要大量算力更新student参数 vLLM:通过page attention,减少显存浪费,充分利用碎片化的显存,并未减少算力 以上两种推理优化的方式都有缺陷,为了弥补上述缺陷,需要新 阅读全文
posted @ 2024-08-03 21:13 第七子007 阅读(1359) 评论(0) 推荐(0)
摘要:多年前搞大数据,因为单节点无力存储和计算PB级别的数据,所以hadoop这种分布式存储和计算框架是标配!如今搞大模型,仍然需要对大量样本数据做计算,因为涉及矩阵运算,单机单卡运算效率太低,也涉及到分布式计算了,大模型时代的分布式pre-train和Inference框架就有现成的—deepspeed 阅读全文
posted @ 2024-07-28 23:29 第七子007 阅读(4022) 评论(0) 推荐(0)
摘要:1、众所周知,transformer架构取得了巨大的成功,核心原因之一就是attention的引入。当年那篇论文的名称就叫attention is all you need,可见attention机制在transformer中的巨大作用!attention的计算示意图如下: 同一个sequence中 阅读全文
posted @ 2024-07-22 17:36 第七子007 阅读(6257) 评论(0) 推荐(0)
摘要:1、有些模型比较大,推理时的效果还不错,但非常耗费计算资源;并且产生token的速度也很慢,大概1秒1个token(我的RAG在最后一步使用的secGPT-13B大概就是这个速度),一个问题回答完毕要耗费分钟级别的时间,用户直接抓狂,继续提升推理的速度! 大模型本质是大量的矩阵运算,想要提高效率,就 阅读全文
posted @ 2024-07-16 17:00 第七子007 阅读(2793) 评论(1) 推荐(0)
摘要:LLM的三大要素: 算力:算力的本质是拼财力,普通人是无力改变的; 算法/模型结构:目前最流行的还是transformer架构, 各种LLM都是基于transformer改细节,暂时没有用新的框架替代transformer。至于后续manba会不会替代transformer架构,有待观察! 数据:这 阅读全文
posted @ 2024-07-10 23:13 第七子007 阅读(7257) 评论(0) 推荐(0)