1 2 3 4 5 ··· 9 下一页
摘要: Agentic RAG 是传统检索增强生成(RAG)技术与AI智能体(Agent)自主能力相结合的一种进阶范式。它让RAG系统从一个遵循固定流程的“信息助手”,升级成了一个具备“大脑”、能够自主规划、决策并与多种工具交互的“智能调查员”。 下面的表格清晰地概括了它的核心特征,以及它与传统RAG的主要 阅读全文
posted @ 2025-10-14 13:51 Jcpeng_std 阅读(110) 评论(0) 推荐(0)
摘要: DeepSpeed 是一个由微软开发的开源深度学习优化库,它专门旨在让大规模深度学习模型(尤其是拥有数千亿甚至万亿参数的大语言模型)的训练和推理变得前所未有地高效、快速和经济。 其核心目标是:打破GPU内存墙,让每个人都能训练和部署超大规模模型。 一、DeepSpeed 要解决的核心问题 在训练像G 阅读全文
posted @ 2025-08-24 14:48 Jcpeng_std 阅读(238) 评论(0) 推荐(0)
摘要: 优化大模型训练速度是一个系统性工程,涉及硬件、软件、算法和流程等多个层面。下面从多个维度为您详细阐述优化策略,从最常见、最有效的到更高级和未来趋势。 核心思路 优化训练速度的本质在于:最大化计算资源利用率 和 最小化通信与闲置开销。 一、硬件层面:让算力最大化 这是最直接的方式,但成本也最高。 使用 阅读全文
posted @ 2025-08-24 14:37 Jcpeng_std 阅读(228) 评论(0) 推荐(0)
摘要: 位置编码是Transformer架构的核心组件之一,用于为模型提供序列中词汇的顺序信息。 核心问题:为什么需要位置编码? 原始的Transformer模型的自注意力机制本质上是排列不变的。这意味着打乱输入序列的顺序,其输出的集合是不会改变的(尽管顺序也打乱了),模型自身无法感知词的先后顺序。因此,必 阅读全文
posted @ 2025-08-20 14:59 Jcpeng_std 阅读(626) 评论(0) 推荐(0)
摘要: 将 CUDA Graph 和 INT4 量化相结合,是优化 T4 GPU 上大语言模型(LLM)推理性能的黄金组合。 T4 GPU 虽然内存带宽相对充足(320 GB/s),但计算能力(尤其是 FP16/INT8 的 TOPS)相较于 A100/H100 较弱。因此,优化的核心思路是:1. 减少计算 阅读全文
posted @ 2025-08-20 14:51 Jcpeng_std 阅读(240) 评论(0) 推荐(0)
摘要: 从零开始实现Transformer模型架构及训练测试代码 下面是一个完整的Transformer模型实现,包括编码器、解码器、多头注意力机制,以及训练和测试代码。 实现位置编码(Positional Encoding) 实现多头注意力机制(Multi-Head Attention) 实现前馈神经网络 阅读全文
posted @ 2025-08-20 14:39 Jcpeng_std 阅读(155) 评论(0) 推荐(0)
摘要: 谷歌DeepMind联手顶尖研究机构推出革命性架构Mixture-of-Recursions(MoR),有望彻底改变AI模型的计算方式,速度翻倍且内存减半,以下对《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptiv 阅读全文
posted @ 2025-08-15 15:13 Jcpeng_std 阅读(155) 评论(0) 推荐(0)
摘要: 混合专家模型(Mixture of Experts, MoE)相比传统的全连接前馈网络(Feed-Forward Network, FFN)在特定场景下具有显著优势,尤其在大规模模型(如LLM、多模态模型)中表现突出。以下是核心优势对比: 1. 计算效率更高(条件计算) MoE: 每个输入样本仅激活 阅读全文
posted @ 2025-08-15 14:58 Jcpeng_std 阅读(216) 评论(0) 推荐(0)
摘要: 1 文件格式 插件 Marker MinerU Markitdown magic-pdf magic-doc 支持的文件格式 PDF、EPUB 和 MOBI PDF PPT、PPTX、DOC、DOCX、PDF PDF, PowerPoint, Word, Excel Images (EXIF met 阅读全文
posted @ 2024-12-23 12:27 Jcpeng_std 阅读(6334) 评论(0) 推荐(0)
摘要: 采用多路归并技术可以减少归并次数,从而降低块读/写次数,加速排序速度。但一般路数的多少取决于内存的容量。此外,多路归并排序的快慢还取决于内部归并算法的快慢。 设文件有n个记录,m个初始归并段,采用k路归并方法。k路归并的基本操作是,从k个归并段的第一个记录中选出最小记录,把他从输入缓冲区移入输出缓冲 阅读全文
posted @ 2021-09-19 18:59 Jcpeng_std 阅读(697) 评论(0) 推荐(0)
1 2 3 4 5 ··· 9 下一页