上一页 1 2 3 4 5 6 ··· 20 下一页
摘要: 转自:https://zhuanlan.zhihu.com/p/650469278 Transformer 模型在处理序列数据时,其自注意力机制使得模型能够全局地捕捉不同元素之间的依赖关系,但这样做的代价是丧失了序列中的元素顺序信息。由于自注意力机制并不考虑元素在序列中的位置,所以在输入序列的任何置 阅读全文
posted @ 2025-09-13 14:17 有何m不可 阅读(58) 评论(0) 推荐(0)
摘要: 一、Transformer位置编码问题 Transformer的自注意力机制本质上是一种基于内容相似度的匹配操作,其核心计算过程与词序无关。给定输入序列中任意两个词元 token,其注意力分数仅依赖于它们的语义相关性,而与它们在序列中的绝对或相对位置无关。具体表现为: 1. 查询-键相关性计算: 通 阅读全文
posted @ 2025-09-13 12:07 有何m不可 阅读(19) 评论(0) 推荐(0)
摘要: RoPE(Rotary Position Embedding)选择用复数乘法实现旋转,核心原因是复数运算的天然旋转特性与工程实现的高效性完美适配了位置编码的需求,具体可以从以下几个角度理解: 1. 复数乘法天然对应 “旋转” 的几何意义 复数在复平面上的乘法运算,本质就是 “旋转 + 缩放”。对于复 阅读全文
posted @ 2025-09-13 11:14 有何m不可 阅读(23) 评论(0) 推荐(0)
摘要: 实际训练中Deepspeed参数配置ZeRO各stage含义是什么,offload以及gradient checkpoint是如何起作用的,本篇基于ZeRO不同stage含义,以及实践时参数含义来阐述Deepspeed原理。 这几天在做大模型的微调,发现几乎所有都用到了deepspeed,这里给大家 阅读全文
posted @ 2025-09-12 10:57 有何m不可 阅读(190) 评论(0) 推荐(0)
摘要: 1. RoPE 背景与复数形式引入在自然语言处理领域,Transformer 架构凭借自注意力机制成为主流模型,但该架构本身不具备捕捉序列顺序信息的能力,因此位置编码是不可或缺的组成部分。传统位置编码方法如绝对位置编码和相对位置编码存在一定局限性,例如绝对位置编码难以建模长距离依赖,相对位置编码在处 阅读全文
posted @ 2025-09-02 13:57 有何m不可 阅读(24) 评论(0) 推荐(0)
摘要: 转自:https://www.zhihu.com/tardis/bd/art/647109286 1. 旋转编码 RoPE 1.1 基本概念 在介绍 RoPE 之前,先给出一些符号定义,以及基本背景。 首先定义一个长度为 的输入序列为: 其中 表示输入序列中第 个 token,而输入序列 对应的 e 阅读全文
posted @ 2025-09-02 12:10 有何m不可 阅读(222) 评论(0) 推荐(0)
摘要: Gradio,回顾! 关于使用 Gradio 构建酷炫的 ML 演示的章节到此结束 —— 希望你会喜欢!回顾一下,在本章中,我们学习了: 如何使用高级 Interface API 创建 Gradio 演示,以及如何配置不同的输入和输出模式。 使用临时链接或者托管在 Hugging Face Spac 阅读全文
posted @ 2025-08-28 17:00 有何m不可 阅读(14) 评论(0) 推荐(0)
摘要: Gradio Blocks 简介 在之前的章节中,我们已经探索并使用 Interface 类创建了一些演示。在本章中,我们将介绍我们新开发的低级 API,名为 gradio.Blocks 。 那么,Interface 和 Blocks 之间有什么区别呢? ⚡ Interface :一个高级 API, 阅读全文
posted @ 2025-08-28 16:59 有何m不可 阅读(21) 评论(0) 推荐(0)
摘要: Interface 的高级功能 现在我们已经能够构建和共享基本界面了,让我们来探索一些 Interface 更高级的功能,比如会话状态和解释。 使用会话状态保存数据 Gradio 支持存储会话状态,以及保留多次提交的数据。会话状态对于构建聊天机器人等需要在用户与模型交互时保持数据的演示非常有用。请注 阅读全文
posted @ 2025-08-28 16:56 有何m不可 阅读(14) 评论(0) 推荐(0)
摘要: 与 Hugging Face Hub 整合 如果觉得本地加载模型有些麻烦,为了让使用模型更轻松,Gradio 可以直接与 Hugging Face Hub 和 Hugging Face Spaces 集成。你可以仅使用一行代码从 Hub 和 Spaces 加载在线的数千个模型。 从 Hugging 阅读全文
posted @ 2025-08-28 16:48 有何m不可 阅读(15) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 20 下一页