摘要:
One-Hot 一、One-Hot 编码是什么 One-Hot 编码是一种最基础的文本表示方式。 它的核心思想非常简单: 用一个只有 0 和 1 的向量来表示一个词,其中只有一个位置为 1,其余位置全为 0。 每一个词在词表中都有一个唯一的位置,这个位置对应向量中为 1 的索引。 二、One-Hot 阅读全文
posted @ 2025-11-10 14:08
元始天尊123
阅读(8)
评论(0)
推荐(0)
摘要:
词向量 一、为什么需要词向量 在自然语言处理中,文本最终需要交给模型进行计算,但模型只能处理数值,无法直接理解文字。因此,一个最基础的问题是: 如何把“词”转化为计算机可以处理的数值形式? 词向量正是为了解决这个问题而提出的。 它的目标是: 用向量来表示词,并尽量让向量之间的几何关系反映词与词之间的 阅读全文
posted @ 2025-11-10 14:08
元始天尊123
阅读(8)
评论(0)
推荐(0)
摘要:
命名实体识别入门 一、什么是命名实体识别 命名实体识别(Named Entity Recognition,简称 NER)是 NLP 中的一项基础任务,其目标是从文本中识别具有明确语义类别的信息,例如: 人名 地名 组织机构 时间、专有名词等 相比文本预处理,NER 已经进入了 语义层面的信息抽取,是 阅读全文
posted @ 2025-11-10 14:08
元始天尊123
阅读(4)
评论(0)
推荐(0)
摘要:
文本预处理 一、为什么要做文本预处理 在自然语言处理任务中,模型的输入并不是“原始文本”,而是经过一系列处理后的文本数据。 原始文本往往存在以下问题: 含有大量无意义符号 空白字符混乱 不同文本格式不统一 噪声信息会干扰后续分析 如果不经过预处理,模型很容易学习到错误的模式,甚至完全无法收敛。因此, 阅读全文
posted @ 2025-11-10 14:08
元始天尊123
阅读(4)
评论(0)
推荐(0)
摘要:
Word2Vec 一、为什么需要 Word2Vec 在学习 One-Hot 编码之后,一个非常明显的问题是: 不同词之间没有任何语义关系。 在 One-Hot 表示中: “手机”和“电脑”之间的相似度是 0 “老师”和“学生”之间的相似度也是 0 这种表示方式无法反映词语之间的真实关系,这在实际 N 阅读全文
posted @ 2025-11-10 14:08
元始天尊123
阅读(7)
评论(0)
推荐(0)

浙公网安备 33010602011771号