摘要: 1.Warmup(热身)和余弦衰减(Cosine Decay)是深度学习训练中「学习率调度」的黄金组合,核心是解决「训练初期不稳定」和「后期难收敛」的问题,以下结合实操逻辑、实现方式和关键细节,帮你彻底落地这两个技巧: Warmup 的目的:训练初期,梯度估计和 batch norm/layer n 阅读全文
posted @ 2025-10-27 10:29 15375357604 阅读(8) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2025-08-12 10:33 15375357604 阅读(5) 评论(0) 推荐(0)
摘要: RAG优化策略 传统 RAG 架构主要分为 文档解析、文本召回、大模型生成这三个阶段,在实际落地中会面临一系列挑战: 1. 文档解析阶段 数据异构:文档来源多样(PDF、网页、表格、图片等),解析结构化难度大。 结构混乱:标题、段落层次混乱,缺乏明确语义边界。 切分困难:固定大小切分易导致语义破损, 阅读全文
posted @ 2025-08-06 10:10 15375357604 阅读(49) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2025-07-22 17:25 15375357604 阅读(6) 评论(0) 推荐(0)
摘要: (99+ 封私信 / 80 条消息) WWW25 京东 生成式检索GRAM: Generative Retrieval and Alignment Model: A New Paradigm for Ecommerce Retrieval - 知乎 (99+ 封私信 / 80 条消息) 京东电商搜索 阅读全文
posted @ 2025-06-18 16:28 15375357604 阅读(21) 评论(0) 推荐(0)
摘要: 1. word tokenizer word base方法简单易理解,每个word都分配一个ID,则所需的Vocabulary则根据语料大小而不同,而且这种分词方式,会将两个本身意思一致的词分成两个毫不同的ID,在英文中尤为明显,如cat, cats。 2. character tokenizer 阅读全文
posted @ 2025-04-27 10:57 15375357604 阅读(268) 评论(0) 推荐(0)
摘要: MiniLM 是什么? MiniLM 是微软研究院开发的一种轻量级的语言模型,旨在以较小的参数量和计算成本实现与大型语言模型(如 BERT)相当的性能。它是基于 Transformer 架构的预训练模型,通过深度自注意力蒸馏(Deep Self-Attention Distillation)等技术进 阅读全文
posted @ 2025-04-16 20:24 15375357604 阅读(1082) 评论(0) 推荐(0)
摘要: 选取一个镜像下拉到docker 命令:sudo docker pull nvcr.io/nvidia/tritonserver:23.04-py3 如果用python作为后端推理代码,肯定会用到pytorch,还需要安装torch等依赖包的镜像。可以创建一个Dockerfile,然后在tritons 阅读全文
posted @ 2025-03-25 17:24 15375357604 阅读(202) 评论(0) 推荐(0)
摘要: import torch import torch.nn as nn from math import sqrt class SelfAttention(nn.Module): def __init__(self, input_dim, dim_q_k, dim_v): self.q = nn.Li 阅读全文
posted @ 2025-03-21 14:17 15375357604 阅读(19) 评论(0) 推荐(0)
摘要: 1. embedding层 输入的:batch_size*seq_len 经过embedding层后的输出:batch_size*seq_len*dim(embedding后的dim维度) 2. attention import numpy as np def self_attention(X): 阅读全文
posted @ 2024-12-06 15:18 15375357604 阅读(28) 评论(0) 推荐(0)