ZacksTang

2026年1月14日

摘要：视频理解模型推理与微调随着多模态大模型的持续发展，视频理解、多模态检索和智能标注等应用场景逐渐落地。为了进一步探究多模态视频理解模型在实际工程中的应用方式，本文以 Qwen3-VL 系列模型为例，系统梳理其在视频场景下的推理与全参数微调实践。文章首先通过一个完整的视频本地推理示例，详细拆解模型输入阅读全文

posted @ 2026-01-14 20:54 ZacksTang 阅读(720) 评论(0) 推荐(0)

2025年8月30日

LLM Benchmark

摘要： 1. LLM Benchmark 随着大语言模型（LLM）的不断发展，如何系统化、客观化地对其进行评测与性能对比，已经成为研究与工业落地中不可或缺的一环。传统的模型评测往往聚焦在单一的任务或指标，而在实际应用中，LLM 的表现不仅取决于模型本身，还与推理框架、硬件环境以及参数调优方式密切相关。本文将阅读全文

posted @ 2025-08-30 23:59 ZacksTang 阅读(1294) 评论(0) 推荐(0)

2025年8月13日

vLLM框架：LLM推理的高效机制

摘要： vLLM框架：大语言模型推理的高效机制 vLLM 是由加州大学伯克利分校团队开发的高性能大模型推理框架，通过创新的显存管理和调度策略，解决了传统推理框架在部署大模型时面临的显存利用率低、吞吐量不足、并发处理效率低等问题。vLLM的核心优势在于其独特的PagedAttention显存管理机制和连续批处阅读全文

posted @ 2025-08-13 22:26 ZacksTang 阅读(2565) 评论(0) 推荐(0)

2025年6月11日

构建基于Serverless架构的向量检索MCP Server

摘要：构建基于Serverless架构的向量检索MCP Server 随着LLM与Agent的快速发展，向量检索成为构建高效语义搜索和智能推荐系统的关键技术之一。OpenSearch Service 作为一款成熟的搜索与分析平台，凭借其内置的向量检索能力和丰富的生态集成，成为实现大规模、高性能向量数据库的阅读全文

posted @ 2025-06-11 18:37 ZacksTang 阅读(463) 评论(0) 推荐(0)

2025年6月3日

Strands Agents（一）Strands Agents 介绍

摘要： Strands Agent AWS 最新开源的 Strands Agents SDK 是一款采用模型驱动架构的 AI 代理开发框架，旨在通过极简开发方式，帮助开发者快速构建和部署 AI 代理。它将代理的核心要素——模型、工具和提示词抽象化，开发者只需几行代码，即可构建从简单任务到复杂多代理协作的多样阅读全文

posted @ 2025-06-03 21:01 ZacksTang 阅读(1090) 评论(0) 推荐(0)

2025年5月5日

Wan2.1 t2v模型Lora Fine-Tune

摘要： Wan2.1 t2v模型Lora Fine-Tune 1. Wan2.1模型 Wan2.1是由阿里巴巴开源的AI视频生成大模型，具备强大的视觉生成能力，支持文本到视频（T2V）和图像到视频（I2V）任务。该模型基于前沿的Diffusion Transformer架构，结合了因果3D变分自编码器（VA 阅读全文

posted @ 2025-05-05 21:56 ZacksTang 阅读(2480) 评论(0) 推荐(1)

2024年11月28日

视觉多模态理解模型基础

摘要： 1. 视觉多模态简介视觉多模态一般涵盖2个要点：视觉表征以及视觉与自然语言的对齐（Visual Language Alignment）或融合。 1.1. 视觉表征视觉表征是指：将图像信息转化为深度学习模型可以处理的特征向量或向量序列的过程。具体来说，它包含以下2点：合理建模视觉输入特征：这阅读全文

posted @ 2024-11-28 22:58 ZacksTang 阅读(2164) 评论(0) 推荐(0)

2024年11月18日

大规模向量检索与量化方法

摘要： 1. 向量检索在向量检索中，KNN（K-Nearest Neighbors）和ANN（Approximate Nearest Neighbor）是两种最常见的方法，它们都用于根据特征向量找到数据点之间的相似性，但它们在精确度和效率上有所不同。 KNN是一种基本的分类和回归方法，它根据一个样本在特征阅读全文

posted @ 2024-11-18 23:26 ZacksTang 阅读(2162) 评论(0) 推荐(1)

2024年7月24日

GraphRAG介绍

摘要： GraphRAG GraphRAG 是一种基于图的检索增强方法，由微软开发并开源。它通过结合LLM和图机器学习的技术，从非结构化的文本中提取结构化的数据，构建知识图谱，以支持问答、摘要等多种应用场景。GraphRAG的特色在于利用图机器学习算法进行语意聚合和层次化分析，从而能够回答一些高层次的抽象或阅读全文

posted @ 2024-07-24 00:01 ZacksTang 阅读(8724) 评论(4) 推荐(3)

2024年6月26日

LLM 推理 - Nvidia TensorRT-LLM 与 Triton Inference Server

摘要： 1. LLM 推理 - TensorRT-LLM 与 Triton Inference Server 随着LLM越来越热门，LLM的推理服务也得到越来越多的关注与探索。在推理框架方面，tensorrt-llm是非常主流的开源框架，在Nvidia GPU上提供了多种优化，加速大语言模型的推理。但是，t 阅读全文

posted @ 2024-06-26 19:38 ZacksTang 阅读(3922) 评论(1) 推荐(3)

公告