摘要: 8.3.1 学习语言模型 依靠在 8.1 节中对序列模型的分析,可以在单词级别对文本数据进行词元化。基本概率规则如下: \[P(x_1,x_2,\dots,x_T)=\prod^T_{t=1}P(x_t|x_1,\dots,x_{t-1}) \]例如,包含了四个单词的一个文本序列的概率是: \[P( 阅读全文
posted @ 2023-10-09 21:34 AncilunKiang 阅读(219) 评论(1) 推荐(0)
摘要: import collections import re from d2l import torch as d2l 解析文本的常见预处理步骤: 将文本作为字符串加载到内存中。 将字符串拆分为词元(如单词和字符)。 建立一个词表,将拆分的词元映射到数字索引。 将文本转换为数字索引序列,方便模型操作。 阅读全文
posted @ 2023-10-09 10:01 AncilunKiang 阅读(232) 评论(0) 推荐(0)