[NLP] One-Hot编码

1 One Hot 编码

独热编码方法使用N位状态寄存器对N个状态进行编码，每个状态都有独立的寄存位；并且在任意时候，N为状态寄存器中都仅有一位有效状态，该位的状态值则表征了一枚特征数据。

举例阐述

以2019年5月31日的一则报道的新闻内容中的两条句子 “方大特钢公司二号高炉煤气管道发生燃爆事故”，“事故中，一名员工死亡，九名员工受伤”作为一份语料库，经过分词后，得到词汇表vocabulary：

vocabulary=[ “方大特钢”,”公司”,”二号”,”高炉”,”煤气”,”管道”,”发生”,”燃爆”,”事故”, ”中”,”一”,”名”,”员工”,”死亡”,”九”,”受伤” ]

可见词汇表表长为16。

那么，原新闻的两段文本可以分别向量表示为:

[1,1,1,1,1,1,1,1,1,0,0,0,0,0,0]

[0,0,0,0,0,0,0,0,1,1,1,1,1]

然而，独热编码方法可不忽视的缺点也赫然存在：

独热编码假设了词汇与词汇之间相互独立，却忽略了大多数情况下，词汇与词汇之间是相互联系、相互影响的，这种脱离了上下文语义的数学表示必然存在着“词汇鸿沟”这一问题，必然为后续的数据挖掘应用埋下隐患。

随着语料集的扩张，词汇表必然跟着扩张，而跟着随词汇表扩张同样的独热编码的维数大小过长，一定会在进行后续的运算上带来巨大的计算压力，尤其是在基于神经网络的需要海量训练与运算的深度学习领域。

posted @ 2024-09-09 22:15 千千寰宇阅读(499) 评论(0) 收藏举报

刷新页面返回顶部