2023 年 10月 9 日随笔档案 - AncilunKiang

2023年10月9日

摘要： 8.3.1 学习语言模型依靠在 8.1 节中对序列模型的分析，可以在单词级别对文本数据进行词元化。基本概率规则如下： \[P(x_1,x_2,\dots,x_T)=\prod^T_{t=1}P(x_t|x_1,\dots,x_{t-1}) \]例如，包含了四个单词的一个文本序列的概率是： \[P( 阅读全文

posted @ 2023-10-09 21:34 AncilunKiang 阅读(228) 评论(1) 推荐(0)

《动手学深度学习 Pytorch版》 8.2 文本预处理

摘要： import collections import re from d2l import torch as d2l 解析文本的常见预处理步骤：将文本作为字符串加载到内存中。将字符串拆分为词元（如单词和字符）。建立一个词表，将拆分的词元映射到数字索引。将文本转换为数字索引序列，方便模型操作。阅读全文

posted @ 2023-10-09 10:01 AncilunKiang 阅读(250) 评论(0) 推荐(0)

AncilunKiang

公告