摘要: 1. LLM Benchmark 随着大语言模型(LLM)的不断发展,如何系统化、客观化地对其进行评测与性能对比,已经成为研究与工业落地中不可或缺的一环。传统的模型评测往往聚焦在单一的任务或指标,而在实际应用中,LLM 的表现不仅取决于模型本身,还与推理框架、硬件环境以及参数调优方式密切相关。本文将 阅读全文
posted @ 2025-08-30 23:59 ZacksTang 阅读(718) 评论(0) 推荐(0)
摘要: vLLM框架:大语言模型推理的高效机制 vLLM 是由加州大学伯克利分校团队开发的高性能大模型推理框架,通过创新的显存管理和调度策略,解决了传统推理框架在部署大模型时面临的显存利用率低、吞吐量不足、并发处理效率低等问题。vLLM的核心优势在于其独特的PagedAttention显存管理机制和连续批处 阅读全文
posted @ 2025-08-13 22:26 ZacksTang 阅读(1559) 评论(0) 推荐(0)
摘要: 构建基于Serverless架构的向量检索MCP Server 随着LLM与Agent的快速发展,向量检索成为构建高效语义搜索和智能推荐系统的关键技术之一。OpenSearch Service 作为一款成熟的搜索与分析平台,凭借其内置的向量检索能力和丰富的生态集成,成为实现大规模、高性能向量数据库的 阅读全文
posted @ 2025-06-11 18:37 ZacksTang 阅读(409) 评论(0) 推荐(0)
摘要: Strands Agent AWS 最新开源的 Strands Agents SDK 是一款采用模型驱动架构的 AI 代理开发框架,旨在通过极简开发方式,帮助开发者快速构建和部署 AI 代理。它将代理的核心要素——模型、工具和提示词抽象化,开发者只需几行代码,即可构建从简单任务到复杂多代理协作的多样 阅读全文
posted @ 2025-06-03 21:01 ZacksTang 阅读(806) 评论(0) 推荐(0)
摘要: Wan2.1 t2v模型Lora Fine-Tune 1. Wan2.1模型 Wan2.1是由阿里巴巴开源的AI视频生成大模型,具备强大的视觉生成能力,支持文本到视频(T2V)和图像到视频(I2V)任务。该模型基于前沿的Diffusion Transformer架构,结合了因果3D变分自编码器(VA 阅读全文
posted @ 2025-05-05 21:56 ZacksTang 阅读(2071) 评论(0) 推荐(1)
摘要: 1. 视觉多模态简介 视觉多模态一般涵盖2个要点:视觉表征 以及 视觉与自然语言的对齐(Visual Language Alignment)或融合。 1.1. 视觉表征 视觉表征是指:将图像信息转化为深度学习模型可以处理的特征向量或向量序列的过程。具体来说,它包含以下2点: 合理建模视觉输入特征:这 阅读全文
posted @ 2024-11-28 22:58 ZacksTang 阅读(1857) 评论(0) 推荐(0)
摘要: 1. 向量检索 在向量检索中,KNN(K-Nearest Neighbors)和ANN(Approximate Nearest Neighbor)是两种最常见的方法,它们都用于根据特征向量找到数据点之间的相似性,但它们在精确度和效率上有所不同。 KNN是一种基本的分类和回归方法,它根据一个样本在特征 阅读全文
posted @ 2024-11-18 23:26 ZacksTang 阅读(1792) 评论(0) 推荐(1)
摘要: GraphRAG GraphRAG 是一种基于图的检索增强方法,由微软开发并开源。它通过结合LLM和图机器学习的技术,从非结构化的文本中提取结构化的数据,构建知识图谱,以支持问答、摘要等多种应用场景。GraphRAG的特色在于利用图机器学习算法进行语意聚合和层次化分析,从而能够回答一些高层次的抽象或 阅读全文
posted @ 2024-07-24 00:01 ZacksTang 阅读(8302) 评论(4) 推荐(3)
摘要: 1. LLM 推理 - TensorRT-LLM 与 Triton Inference Server 随着LLM越来越热门,LLM的推理服务也得到越来越多的关注与探索。在推理框架方面,tensorrt-llm是非常主流的开源框架,在Nvidia GPU上提供了多种优化,加速大语言模型的推理。但是,t 阅读全文
posted @ 2024-06-26 19:38 ZacksTang 阅读(3635) 评论(1) 推荐(3)
摘要: 8. 推理 server side batch是推理服务的标配(以提升server侧吞吐量为目的). 测试llama-2-13B的量化性能, 目前测试结果比较理想的是vLLM + AWQ (batch) 和Transformer + AWQ (single)。最快的是tensorrtllm awq。 阅读全文
posted @ 2024-06-18 16:18 ZacksTang 阅读(312) 评论(0) 推荐(0)