09 2021 档案

摘要:在语言处理中,往往使用向量x来表示文本的大量语言学特性。 这个过程就叫做特征提取或者特征编码。一种流行并且简单的特征提取方法就是词袋模型。 对于中文来说,词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应的词频放在 阅读全文
posted @ 2021-09-12 16:01 AnthonyWang 阅读(134) 评论(0) 推荐(0)