调整字典
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
使用 get_FREQ(word) 用来统计当前词的词频。
使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。
注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。
# test frequency tune testlist = [ ('今天天气不错', ('今天', '天气')), ('如果放到post中将出错。', ('中', '将')), ('我们中出了一个叛徒', ('中', '出')), ] for sent, seg in testlist: print('/'.join(jieba.cut(sent, HMM=False))) word = ''.join(seg) print('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True))) print('/'.join(jieba.cut(sent, HMM=False))) print("-"*40)
今天天气/不错 今天天气 Before: 3, After: 0 今天/天气/不错 如果/放到/post/中将/出错/ 中将 Before: 763, After: 494 如果/放到/post/中/将/出错/。 我们/中/出/了/一个/叛徒 中出 Before: 3, After: 3 我们/中/出/了/一个/叛徒

浙公网安备 33010602011771号