wangssd

2025年12月26日

编码器(Encoder) / 解码器(Decoder) / 编码器-解码器(Encoder-Decoder)架构

摘要：大模型的架构主要可分为编码器（Encoder）、解码器（Decoder）、编码器 - 解码器（Encoder-Decoder）三大类，不同架构适用于不同的任务场景。一、编码器架构（Encoder-only）核心思想：基于双向注意力机制，能够完整捕捉输入序列的上下文信息，擅长理解类任务。核心阅读全文

posted @ 2025-12-26 13:30 wangssd 阅读(71) 评论(0) 推荐(0)

llm 视频/语音对齐（风景视频/虚拟主播）

摘要： 1. 风景视频类型（无需对口型） 1. 文本输入模块职责：接收用户的原始文本（支持纯文本、带情绪标注的文本，比如[欢快]今天天气很好），做基础校验（非空、长度限制）。设计要点：支持文本分段（比如按句号 / 逗号拆分，匹配视频镜头节奏）、保留文本的情绪 / 语速标注。 2. 文本处理与拆分模块职阅读全文

posted @ 2025-12-26 11:00 wangssd 阅读(33) 评论(0) 推荐(0)

2025年12月24日

文生图、文生视频底层架构探究

摘要：文本生成图片 Qwen-Image (28B，文生图) 模型大小：57GB https://www.modelscope.cn/models/Qwen/Qwen-Image Qwen-Image-Edit-2509 (28B，图文生图) 模型大小：60GB https://www.modelscop 阅读全文

posted @ 2025-12-24 10:16 wangssd 阅读(38) 评论(0) 推荐(0)

2025年12月19日

ASR和TTS底层解析

摘要： 1. ASR（Automatic Speech Recognition）自动语音识别通过语音模型将人类语音转化为文本常见开源/知名模型/工具： Whisper (OpenAI)：目前最主流的开源选择，支持多语言，识别精度高。 FunASR (阿里巴巴达摩院)：专注中文场景，对嘈杂环境鲁棒性强。阅读全文

posted @ 2025-12-19 17:54 wangssd 阅读(29) 评论(0) 推荐(0)

Qwen3-VL 视觉Token 数计算

摘要： Qwen3-VL-8B 中图片占用的 Token 数 = 图片分块数 + 固定视觉前缀 / 后缀 Token（通常约 256~1024 个 Token，取决于图片分辨率），具体计算逻辑如下：一、Qwen3-VL 图片 Token 计算规则 Qwen3-VL 采用「视觉分块编码」方案，和文本 Tok 阅读全文

posted @ 2025-12-19 15:01 wangssd 阅读(384) 评论(0) 推荐(0)

2025年12月17日

llm范式和多agent架构（ReAct、Plan-and-Execute）

摘要：论文：《ReAct: Synergizing Reasoning and Acting in Language Models》链接：https://arxiv.org/pdf/2210.03629 背景：经过适当提示的大型语言模型（LLMs）已经展现出进行推理步骤以推导出算术、常识和符号推理任务阅读全文

posted @ 2025-12-17 13:53 wangssd 阅读(222) 评论(0) 推荐(0)

2025年12月16日

Qwen-VL-8B-Instruct(多模态大语言模型 / 图生文)

摘要：模型：https://www.modelscope.cn/models/Qwen/Qwen3-VL-8B-Instruct 1. 多模态理解图像理解：识别物体、场景、文字（OCR）多图推理：支持多张图像输入进行综合推理文档解析：表格、图表、公式识别细粒度理解：支持区域级别的视觉定位（通过文本阅读全文

posted @ 2025-12-16 15:17 wangssd 阅读(87) 评论(0) 推荐(0)

2025年12月8日

MLflow (机器学习/深度学习 mlops平台 kubeflow)

摘要： MLflow 是一个功能强大的ML生命周期管理平台，主要用于 ML/DL/LLM 实验管理、模型跟踪、模型部署等。 1. 核心概念实验（Experiment）：MLflow 的基本组织单位，用于将相关的运行组织在一起。每个实验包含多次运行，通常对应一个特定的 ML 项目运行（Run）：单次执行代阅读全文

posted @ 2025-12-08 15:45 wangssd 阅读(17) 评论(0) 推荐(0)

2025年12月5日

时间序列中的多步预测

摘要：多步预测主要分为两种策略：递归预测、序列到序列预测（Seq2Seq）递归预测（Recursive Forecasting）使用单步预测模型，将预测值作为下一步的输入适合短期预测，误差会逐渐累积序列到序列预测（Seq2Seq）编码器-解码器架构最常用的多步预测方法阅读全文

posted @ 2025-12-05 14:08 wangssd 阅读(29) 评论(0) 推荐(0)

2025年12月4日

时序预测大模型 Chronos模型设计思想

摘要：亚马逊研究团队于2024年提出的一种时间序列预测基础模型Chronos，代表了时间序列领域向大模型范式的重要转变。模型的核心思想是将时间序列预测重塑为一个条件生成建模或语言建模任务。应用于Zero-shot （零时序预测（Zero-shot Time Series Forecasting）指的阅读全文

posted @ 2025-12-04 16:50 wangssd 阅读(332) 评论(0) 推荐(0)

公告