会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ZacksTang
博客园
首页
新随笔
联系
管理
订阅
2025年8月30日
LLM Benchmark
摘要: 1. LLM Benchmark 随着大语言模型(LLM)的不断发展,如何系统化、客观化地对其进行评测与性能对比,已经成为研究与工业落地中不可或缺的一环。传统的模型评测往往聚焦在单一的任务或指标,而在实际应用中,LLM 的表现不仅取决于模型本身,还与推理框架、硬件环境以及参数调优方式密切相关。本文将
阅读全文
posted @ 2025-08-30 23:59 ZacksTang
阅读(718)
评论(0)
推荐(0)
2025年8月13日
vLLM框架:LLM推理的高效机制
摘要: vLLM框架:大语言模型推理的高效机制 vLLM 是由加州大学伯克利分校团队开发的高性能大模型推理框架,通过创新的显存管理和调度策略,解决了传统推理框架在部署大模型时面临的显存利用率低、吞吐量不足、并发处理效率低等问题。vLLM的核心优势在于其独特的PagedAttention显存管理机制和连续批处
阅读全文
posted @ 2025-08-13 22:26 ZacksTang
阅读(1559)
评论(0)
推荐(0)
2025年6月11日
构建基于Serverless架构的向量检索MCP Server
摘要: 构建基于Serverless架构的向量检索MCP Server 随着LLM与Agent的快速发展,向量检索成为构建高效语义搜索和智能推荐系统的关键技术之一。OpenSearch Service 作为一款成熟的搜索与分析平台,凭借其内置的向量检索能力和丰富的生态集成,成为实现大规模、高性能向量数据库的
阅读全文
posted @ 2025-06-11 18:37 ZacksTang
阅读(409)
评论(0)
推荐(0)
2025年6月3日
Strands Agents(一)Strands Agents 介绍
摘要: Strands Agent AWS 最新开源的 Strands Agents SDK 是一款采用模型驱动架构的 AI 代理开发框架,旨在通过极简开发方式,帮助开发者快速构建和部署 AI 代理。它将代理的核心要素——模型、工具和提示词抽象化,开发者只需几行代码,即可构建从简单任务到复杂多代理协作的多样
阅读全文
posted @ 2025-06-03 21:01 ZacksTang
阅读(806)
评论(0)
推荐(0)
2025年5月5日
Wan2.1 t2v模型Lora Fine-Tune
摘要: Wan2.1 t2v模型Lora Fine-Tune 1. Wan2.1模型 Wan2.1是由阿里巴巴开源的AI视频生成大模型,具备强大的视觉生成能力,支持文本到视频(T2V)和图像到视频(I2V)任务。该模型基于前沿的Diffusion Transformer架构,结合了因果3D变分自编码器(VA
阅读全文
posted @ 2025-05-05 21:56 ZacksTang
阅读(2071)
评论(0)
推荐(1)
2024年11月28日
视觉多模态理解模型基础
摘要: 1. 视觉多模态简介 视觉多模态一般涵盖2个要点:视觉表征 以及 视觉与自然语言的对齐(Visual Language Alignment)或融合。 1.1. 视觉表征 视觉表征是指:将图像信息转化为深度学习模型可以处理的特征向量或向量序列的过程。具体来说,它包含以下2点: 合理建模视觉输入特征:这
阅读全文
posted @ 2024-11-28 22:58 ZacksTang
阅读(1857)
评论(0)
推荐(0)
2024年11月18日
大规模向量检索与量化方法
摘要: 1. 向量检索 在向量检索中,KNN(K-Nearest Neighbors)和ANN(Approximate Nearest Neighbor)是两种最常见的方法,它们都用于根据特征向量找到数据点之间的相似性,但它们在精确度和效率上有所不同。 KNN是一种基本的分类和回归方法,它根据一个样本在特征
阅读全文
posted @ 2024-11-18 23:26 ZacksTang
阅读(1792)
评论(0)
推荐(1)
2024年7月24日
GraphRAG介绍
摘要: GraphRAG GraphRAG 是一种基于图的检索增强方法,由微软开发并开源。它通过结合LLM和图机器学习的技术,从非结构化的文本中提取结构化的数据,构建知识图谱,以支持问答、摘要等多种应用场景。GraphRAG的特色在于利用图机器学习算法进行语意聚合和层次化分析,从而能够回答一些高层次的抽象或
阅读全文
posted @ 2024-07-24 00:01 ZacksTang
阅读(8302)
评论(4)
推荐(3)
2024年6月26日
LLM 推理 - Nvidia TensorRT-LLM 与 Triton Inference Server
摘要: 1. LLM 推理 - TensorRT-LLM 与 Triton Inference Server 随着LLM越来越热门,LLM的推理服务也得到越来越多的关注与探索。在推理框架方面,tensorrt-llm是非常主流的开源框架,在Nvidia GPU上提供了多种优化,加速大语言模型的推理。但是,t
阅读全文
posted @ 2024-06-26 19:38 ZacksTang
阅读(3635)
评论(1)
推荐(3)
2024年6月18日
LLM学习笔记(二)
摘要: 8. 推理 server side batch是推理服务的标配(以提升server侧吞吐量为目的). 测试llama-2-13B的量化性能, 目前测试结果比较理想的是vLLM + AWQ (batch) 和Transformer + AWQ (single)。最快的是tensorrtllm awq。
阅读全文
posted @ 2024-06-18 16:18 ZacksTang
阅读(312)
评论(0)
推荐(0)
下一页
公告