随笔分类 -  大模型

上一页 1 ··· 3 4 5 6 7

关于 MoE 大模型负载均衡策略演进的回顾:坑点与经验教训
摘要:故事要从 GShard 说起——当时,人们意识到拥有数十亿甚至数万亿参数的模型可以通过某种形式的“稀疏化(sparsified)”来在保持高精度的同时加速训练。自那以后,我们见证了各种让人眼花缭乱的创新。本文将尝试把从 GShard 到 DeepSeek-V3 这一系列关键方案串联起来,看看每一次迭 阅读全文

posted @ 2025-02-11 16:02 ExplorerMan 阅读(922) 评论(0) 推荐(0)

一文彻底整明白,基于Ollama工具的LLM大语言模型Web可视化对话机器人部署指南
摘要:为了方便把我们的大模型对话机器人分享出去,聊天机器人最后是基于Web网站,可通过浏览器访问,本文正是通过Ollama和WebUI在本地部署Llama 3Web 版聊天机器人,本文包括如下部分: 什么是Ollama,它与Llama是什么关系? 安装Ollama大语言模型工具 安装Node.js编程语言 阅读全文

posted @ 2025-02-11 11:27 ExplorerMan 阅读(378) 评论(0) 推荐(0)

LlaMA模型架构,什么是LlaMA?
摘要:1)什么是LlaMA?LLaMA的全称是Large Language Model Meta AI,直译为“大语言模型元AI”。由于“Llama”在西班牙语中意为“羊驼”,因此社区也将其昵称为羊驼系模型。 LLaMA于2023年2月由Meta AI发布,是该系列的初代模型。随后,Meta AI又相继推 阅读全文

posted @ 2025-02-11 11:25 ExplorerMan 阅读(428) 评论(0) 推荐(0)

多头潜在注意力MLA
摘要:多头潜在注意力(Multi-Head Latent Attention,MLA)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列或多模态数据时的效率和性能。以下是对其的简单形象解释: MLA的核心思想 MLA结合了多头注意力(MHA)和潜在表示学习。它通过将高维输入映射到低维潜 阅读全文

posted @ 2025-02-10 19:54 ExplorerMan 阅读(694) 评论(0) 推荐(0)

大模型Attention
摘要:用一个简单形象的例子来理解大模型中的Attention(注意力机制)。 1. 什么是Attention? 想象一下,你正在读一篇很长的文章。文章里有很多内容,但你可能只对其中一部分特别感兴趣,比如一个关键的情节或者一个重要的观点。你的大脑会自然地把注意力集中在这些重要的部分,而对其他部分的关注度会相 阅读全文

posted @ 2025-02-10 19:43 ExplorerMan 阅读(128) 评论(0) 推荐(0)

统一视角看 Attention 与 MoE
摘要:注: 本文 原始 idea 来自于香港大学(HKU) 黄毅老师 (主页: Ngai Wong), 与本人共同讨论, 形成此文. Update: 简易版报告在我主页, 可以访问 https://wutaiqiang.github.io/pdf/Unified_view_for_Attention_an 阅读全文

posted @ 2025-02-10 19:34 ExplorerMan 阅读(119) 评论(0) 推荐(0)

Langchain(一) -使用langchain快速开始搭建聊天机器人
摘要:快速开始 在本快速入门中,我们将向您展示如何: 使用 LangChain、LangSmith 和 LangServe 进行设置 使用LangChain最基本、最常用的组件:提示模板、模型和输出解析器 使用 LangChain 表达式语言,这是 LangChain 构建的协议,有助于组件链接 使用La 阅读全文

posted @ 2025-01-21 20:16 ExplorerMan 阅读(569) 评论(0) 推荐(0)

LangServe全面使用指南
摘要:在一个阳光明媚的早晨,小王坐在他的工作台前,面前是一堆复杂的代码和文档。他是一位充满激情的码农,正在用LangChain构建一个超级助理一般的聊天机器人。小王对机器人的未来充满憧憬,但眼下他面临着一个巨大的挑战:如何将他的聊天机器人转化为一个用户友好的在线服务。他需要一个能够将模型快速而可靠地部署为 阅读全文

posted @ 2025-01-21 16:57 ExplorerMan 阅读(375) 评论(0) 推荐(0)

使用LangSmith来快速学习LangChain
摘要:好风凭借力,送我上青云! 什么是LangSmith LangSmith is a platform for building production-grade LLM applications.It lets you debug, test, evaluate, and monitor chains 阅读全文

posted @ 2025-01-21 16:40 ExplorerMan 阅读(367) 评论(0) 推荐(0)

上一页 1 ··· 3 4 5 6 7

导航