上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 234 下一页

2025年2月12日

GraphRAG

摘要: 微软年中开源 GraphRAG 是一个现象级事件,作为一个库而非端到端产品,能在短时间内获得大量关注,说明它确实解决了 RAG 的一些核心问题——这就是语义鸿沟。做搜索系统的人很早就在面临这样的麻烦,因为查询和答案之间并不总能保证可以匹配。当搜索系统升级到 RAG 之后,这样的问题被放大:搜索系统的 阅读全文

posted @ 2025-02-12 11:48 ExplorerMan 阅读(34) 评论(0) 推荐(0)

2025年2月11日

RAG 引擎 RAGFlow

摘要: RAGFlow开源了一个RAG框架!RAGFlow :一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠 阅读全文

posted @ 2025-02-11 20:49 ExplorerMan 阅读(269) 评论(0) 推荐(0)

vLLM

摘要: ‌vLLM(Virtual Large Language Model)‌是一个用于优化大型语言模型(LLM)推理的高效系统。它的主要设计目标是通过减少计算开销和提高吞吐量,来加速LLM在推理阶段的性能‌1。 技术特点和应用场景 vLLM具有以下核心特性: ‌高效内存管理‌:vLLM采用PagedAt 阅读全文

posted @ 2025-02-11 20:15 ExplorerMan 阅读(616) 评论(0) 推荐(0)

大模型在陌陌的推理与应用

摘要: 导读 本文将分享陌陌如何利用大模型技术革新其业务与研发流程。 主要内容包括以下几个部分: 1. AI 应用范式更新 2. 大模型高效推理 3. 大模型应用平台 4. 未来展望 5. 总结 6. Q&A 分享嘉宾|陈玉祥 挚文集团 算法工程专家 编辑整理|王文海 内容校对|李瑶 出品社区|DataFu 阅读全文

posted @ 2025-02-11 20:09 ExplorerMan 阅读(93) 评论(0) 推荐(0)

DeepSeek-V3 详解:深入探究下一代 AI 模型

摘要: 如何使用 DeepSeek-V3:代码示例 为了帮助您开始使用 DeepSeek-V3,这里有一些使用 Python 和Hugging Face Transformers 库的实际示例。 安装所需的库 首先,安装必要的库: pip install transformers torch 示例 1:使用 阅读全文

posted @ 2025-02-11 16:20 ExplorerMan 阅读(839) 评论(0) 推荐(0)

关于 MoE 大模型负载均衡策略演进的回顾:坑点与经验教训

摘要: 故事要从 GShard 说起——当时,人们意识到拥有数十亿甚至数万亿参数的模型可以通过某种形式的“稀疏化(sparsified)”来在保持高精度的同时加速训练。自那以后,我们见证了各种让人眼花缭乱的创新。本文将尝试把从 GShard 到 DeepSeek-V3 这一系列关键方案串联起来,看看每一次迭 阅读全文

posted @ 2025-02-11 16:02 ExplorerMan 阅读(996) 评论(0) 推荐(0)

一文彻底整明白,基于Ollama工具的LLM大语言模型Web可视化对话机器人部署指南

摘要: 为了方便把我们的大模型对话机器人分享出去,聊天机器人最后是基于Web网站,可通过浏览器访问,本文正是通过Ollama和WebUI在本地部署Llama 3Web 版聊天机器人,本文包括如下部分: 什么是Ollama,它与Llama是什么关系? 安装Ollama大语言模型工具 安装Node.js编程语言 阅读全文

posted @ 2025-02-11 11:27 ExplorerMan 阅读(395) 评论(0) 推荐(0)

LlaMA模型架构,什么是LlaMA?

摘要: 1)什么是LlaMA?LLaMA的全称是Large Language Model Meta AI,直译为“大语言模型元AI”。由于“Llama”在西班牙语中意为“羊驼”,因此社区也将其昵称为羊驼系模型。 LLaMA于2023年2月由Meta AI发布,是该系列的初代模型。随后,Meta AI又相继推 阅读全文

posted @ 2025-02-11 11:25 ExplorerMan 阅读(563) 评论(0) 推荐(0)

2025年2月10日

多头潜在注意力MLA

摘要: 多头潜在注意力(Multi-Head Latent Attention,MLA)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列或多模态数据时的效率和性能。以下是对其的简单形象解释: MLA的核心思想 MLA结合了多头注意力(MHA)和潜在表示学习。它通过将高维输入映射到低维潜 阅读全文

posted @ 2025-02-10 19:54 ExplorerMan 阅读(720) 评论(0) 推荐(0)

大模型MoE

摘要: MoE(Mixture of Experts,混合专家模型)是一种新型的大模型架构,其核心思想是“术业有专攻”,通过多个“专家”模型共同协作来处理复杂的任务。以下是一个简单形象的解释: 1. MoE的核心组成 专家(Experts):MoE模型由多个独立的子模型组成,每个子模型被称为一个“专家”。这 阅读全文

posted @ 2025-02-10 19:49 ExplorerMan 阅读(219) 评论(0) 推荐(0)

上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 234 下一页

导航