摘要: 子词模型 前置知识 (1)词法知识介绍 语音学是音流无争议的物理学 语音体系假定了一组或多组独特的、分类的单元(音素) 传统上,词素是最小的语义单位(例如\(ate,ly,able\)这种),但如今我们需要讨论比单词粒度更细的模型以处理大量的开放词汇(巨大的、无限的单词空间) 例如:oooooooo 阅读全文
posted @ 2025-03-08 22:48 绵满 阅读(264) 评论(0) 推荐(0)
摘要: 模型回顾 问题:RNN需要经过k步才能对远距离的单词进行交互,例如 这里的was是chef的谓语,二者的关系十分紧密,但是使用线性顺序分析句子会导致如果was和chef的距离较远,它们会难以交互(因为梯度问题) Self Attention 键值对注意力 (1)我们可以将注意力视为在键值存储中执行模 阅读全文
posted @ 2025-03-08 22:45 绵满 阅读(304) 评论(0) 推荐(0)
摘要: 语言模型的解码 △:在讲义中这部分内容是神经机器翻译NMT中,我认为这个适用于所有语言模型所以就单列出来了 (1)贪心解码:每一步都取最可能的单词,用前一步的输出作为下一步的输入(存在问题:有一个预测偏差,会导致后面的生成不可挽回,最终结果不尽人意) (2)穷举解码:顾名思义,尝试计算每一个可能的序 阅读全文
posted @ 2025-03-08 22:43 绵满 阅读(273) 评论(0) 推荐(0)
摘要: LSTM (1)LSTM(Long Short-Term Memory RNNs)是Hochreiter和Schmidhuber在1997年提出的一种RNN,用于解决消失梯度问题 (2)在步骤t中,这里有一个隐藏单元\(h^{(t)}\)和一个记忆单元\(c^{(t)}\) 它们均为长度为n的向量 阅读全文
posted @ 2025-03-08 22:42 绵满 阅读(293) 评论(0) 推荐(0)
摘要: 语言模型定义 (1)语言模型任务是根据给定的单词序列计算下一个单词的概率分布,完成这样的任务的系统就被称作语言模型 (2)也可以认为语言模型是一个为文本分配概率的系统,例如文本 \(x^{(1)},\cdots,x^{(T)}\) 的概率是 n-gram语言模型 (1)一个n-gram是由n个连续单 阅读全文
posted @ 2025-03-08 22:38 绵满 阅读(282) 评论(0) 推荐(0)
摘要: 依存结构 与编译器中的解析树类似,NLP中的解析树是用于分析句子的句法结构。使用的结构主要有两种类型——短语结构和依存结构。短语结构文法使用短语结构语法将词组织成嵌套成分。后面的内容会展开对它做更详细的说明。我们现在关注依存语法。 句子的依存结构展示了单词依赖于另外一个单词 (修饰或者是参数)。词与 阅读全文
posted @ 2025-03-08 22:36 绵满 阅读(355) 评论(0) 推荐(0)
摘要: 词向量评估 词向量内部评估 (1)词向量的内部评估是对一组由如Word2Vec或GloVe生成的词向量在特定的中间子任务 (如词类比) 上的评估。这些子任务通常简单而且计算速度快,从而能够帮助我们理解生成的的词向量。 (2)词类比 一个比较常用的内部评估的方法是词向量的类比。在词向量类比中,给定以下 阅读全文
posted @ 2025-03-08 22:35 绵满 阅读(293) 评论(0) 推荐(0)
摘要: 传统方式 先探讨一个问题,我们怎么获取一个词语有用的含义? 以前常用的NLP解决方法,使用WordNet,这是一个包含同义词和上位词列表的同义词库 传统NLP中,我们用独热向量作为特征,这导致需要的特征向量维度过大,且由于独热向量都是正交的,所以词与词之间没有关联。 Word2Vec Word2Ve 阅读全文
posted @ 2025-03-08 22:32 绵满 阅读(377) 评论(0) 推荐(0)