NLP -- 从文本特征到输入

将一系列核心特征转换成分类器可接收的特征向量。即输入 x

独热编码（one-hot）

每个特征都用单独一维来表示（其中只有一维值为1，其余维为0）

特点：维度高、且很稀疏，向量维度与不同特征的数目相同，特征空间完全相互独立
稠密编码

每个核心特征都被嵌入到 d 维空间中，并用空间中的一个向量表示（通常空间维度 d 都远小于特征数目），并且嵌入向量（每个核心特征的向量表示）作为网络的参数与函数 f 中的其他参数一起被训练

特点：向量维度是 d ，模型训练会导致相似特征对应相似向量，相似特征间的信息是共享的

优势：具有很强得泛化能力（这种好的词向量（预训练嵌入）能够通过基于分布假设的算法在大规模文本语料上得到得到）

如何选择：

独热：适用于缺乏同一类别区分度大的特征并且不同特征间没有相互关系的情况，以及特征空间相对较小并且训练数据比较充足或不希望共享不同词间的统计信息时

稠密：当希望捕捉不同词之间的相似性时

每个特征对应一个稠密向量，采用某种方式将不同的向量组合起来，主要有拼接、相加（或取平均）和同时使用拼接与相加

以位置 i 为中心词，两边各包含 k 个单词的窗口，假设 k = 2，窗口内的词为 a，b，c，d

有时不能预先确定特征的数目（如在文本分类任务中，通常句子的每个词都是一个特征），因此需要使用固定大小的向量表示任意数量的特征。

CBOW：通过相加或者平均的方式组合特征的嵌入向量

\[CBOW(f_1,...,f_k)=\frac{1}{k}\sum_{i=1}^{k}{v(f_i)} \]

加权 CBOW 是CBOW 的一种简单变换，为不同的向量赋予不同的权重：

\[WCBOW(f_1,...,f_k)=\frac{1}{\sum_{i=1}^{k}{a_i}}\sum_{i=1}^{k}{a_iv(f_i)} \]

每个特征 f_i 都有对应的权重 a_i，表明特征的相对重要性

posted @ 2020-08-04 15:39 -费费阅读(552) 评论(0) 收藏举报

刷新页面返回顶部

alivinfer