随笔分类 - 文本挖掘
摘要:一、停用词 1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等 2、停用词表百度搜索就有一堆了 二、TF-IDF 前言: 比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一
阅读全文
posted @ 2019-01-19 19:01
后来的后来123

浙公网安备 33010602011771号