随笔档案「2025年4月25日」：第3讲、大模型如何理解和表示单词：词嵌入向量原理详解 ... - 何双新

2025年4月25日

摘要： 1. 引言大型语言模型（Large Language Models，简称LLM）如GPT-4、Claude和LLaMA等近年来取得了突破性进展，能够生成流畅自然的文本、回答复杂问题、甚至编写代码。但这些模型究竟是如何理解人类语言的？它们如何表示和处理单词？本文将深入探讨大模型的基础机制——词嵌入向阅读全文

posted @ 2025-04-25 22:55 何双新阅读(729) 评论(0) 推荐(0)

第2讲、Transformer架构图详解

摘要： 1. Transformer架构运行机制 Transformer架构是一种强大的神经网络结构，主要用于自然语言处理任务。它摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)，完全基于注意力机制构建。根据图示，我们可以看到Transformer由以下主要部分组成：简单结构拆分图完整的详细结阅读全文

posted @ 2025-04-25 11:11 何双新阅读(1636) 评论(0) 推荐(0)

且将新火试新茶

公告