会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
第七子007
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
22
下一页
2024年10月21日
LLM大模型: blip2/blip3多模态大模型原理
摘要: 截止目前,图片检索领域最出名的应该是openAI的clip了,分别用bert和vit对text和image做encoder,然后让配对的embedding接近,不配对的embedding拉远,通过这种方法达到text匹配(检索)image的目的!但这种方式只能检索,没法生成text啊(比如对imag
阅读全文
posted @ 2024-10-21 17:14 第七子007
阅读(3065)
评论(0)
推荐(1)
2024年10月1日
LLM大模型: diffusion transformer Dit原理和核心代码
摘要: 现阶段,主流文生图的思路就是DDPM了:先随机生成N~(0,1)的噪声图,然后逐步denoise,迭代1000次左右得到text指定的图;其中最核心的莫过于denoise时生成的noise图片:每次需要根据输入时间t、文本text和noise latent生成合适的noise图片。之前介绍了unet
阅读全文
posted @ 2024-10-01 20:01 第七子007
阅读(3140)
评论(0)
推荐(0)
2024年9月25日
LLM大模型: 生成式模型generative model SD和VAE的数学原理和prompt融入image
摘要: 1、(1)上文介绍了DDPM生成图片的原理和代码测试结果,训练时给样本图片加上gaussian noise,预测时也是预测gaussian noise; 这里为啥要用gaussian distribution?为啥不用其他的分布? 高斯分布相对比较简单,只有两个参数:均值和方差,容易控制; 为啥一张
阅读全文
posted @ 2024-09-25 17:09 第七子007
阅读(266)
评论(0)
推荐(0)
2024年9月23日
LLM大模型: Denoising Diffusion Probabilistic Models 原理解析与核心代码
摘要: 根据文本生成图片是AI的核心应用之一,2020年后主流的生成方式都是基于Denoising Diffusion Probabilistic Models原理的,逐渐替代了之前使用GAN的方式生成图片!那么DDPM为啥能取代GAN了?其优势在哪?或者说GAN的劣势在哪? 1、CLIP模型都知道吧? t
阅读全文
posted @ 2024-09-23 15:57 第七子007
阅读(578)
评论(0)
推荐(0)
2024年9月17日
GNN图神经网络原理解析
摘要: 以前搞机器学习、数据挖掘,主要是针对文本、图像和结构化的数据。但在现实的物理世界中,还有一类非常重要的数据结构:图(不是图片Image,而是graph)!最常见的graph结构: 社交网络了:比如微信、qq这种好友关系的无向图;又比如weibo、x这种关注关系的有向图; google搜索引擎早期排序
阅读全文
posted @ 2024-09-17 12:23 第七子007
阅读(473)
评论(0)
推荐(0)
2024年8月8日
LLM大模型:LLaVa多模态图片检索原理
摘要: 训练安全垂直领域的LLM,会用到很多著名安全论坛(52pojie\kanxue\xianzhi\freebuf等)、博客的数据,这些数据100%都有很多图片(文不如图嘛,图片比文字更直观,更容易表达业务意义),之前微调LLM只能使用文字,图片只能丢弃,非常可惜,需要利用多模态的技术充分提取图片信息!
阅读全文
posted @ 2024-08-08 17:32 第七子007
阅读(3903)
评论(1)
推荐(2)
2024年8月3日
LLM大模型:推理优化-PTQ int8量化
摘要: 前面介绍的推理优化方法都有缺陷: knowledge distillation:需要样本数据训练student,同时要大量算力更新student参数 vLLM:通过page attention,减少显存浪费,充分利用碎片化的显存,并未减少算力 以上两种推理优化的方式都有缺陷,为了弥补上述缺陷,需要新
阅读全文
posted @ 2024-08-03 21:13 第七子007
阅读(1389)
评论(0)
推荐(0)
2024年7月28日
LLM大模型:deepspeed实战和原理解析
摘要: 多年前搞大数据,因为单节点无力存储和计算PB级别的数据,所以hadoop这种分布式存储和计算框架是标配!如今搞大模型,仍然需要对大量样本数据做计算,因为涉及矩阵运算,单机单卡运算效率太低,也涉及到分布式计算了,大模型时代的分布式pre-train和Inference框架就有现成的—deepspeed
阅读全文
posted @ 2024-07-28 23:29 第七子007
阅读(4076)
评论(0)
推荐(0)
2024年7月22日
LLM大模型:推理优化-vLLM显存使用优化
摘要: 1、众所周知,transformer架构取得了巨大的成功,核心原因之一就是attention的引入。当年那篇论文的名称就叫attention is all you need,可见attention机制在transformer中的巨大作用!attention的计算示意图如下: 同一个sequence中
阅读全文
posted @ 2024-07-22 17:36 第七子007
阅读(6322)
评论(0)
推荐(0)
2024年7月16日
LLM大模型:推理优化-知识蒸馏
摘要: 1、有些模型比较大,推理时的效果还不错,但非常耗费计算资源;并且产生token的速度也很慢,大概1秒1个token(我的RAG在最后一步使用的secGPT-13B大概就是这个速度),一个问题回答完毕要耗费分钟级别的时间,用户直接抓狂,继续提升推理的速度! 大模型本质是大量的矩阵运算,想要提高效率,就
阅读全文
posted @ 2024-07-16 17:00 第七子007
阅读(2833)
评论(1)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
22
下一页
公告