验证已建立的tf-idf(TfidfVectorizer)模型对新文本进行量化的过程

from sklearn.feature_extraction.text import TfidfVectorizer

test_a = ['天天 爱 LOL',
          '爱 玩 游戏',
          '我 是 男生',
          '男生 ',
          '爸爸 也 爱 玩 lol'
          ]
tf = TfidfVectorizer()
print(tf.fit_transform(test_a).toarray())
print(tf.vocabulary_)  # 返回columns字段字典

test_b = ['爸爸 也 爱 玩 lol']
print(tf.transform(test_b).toarray())  # 以test_a数据创建的词袋模型,一一查找新文本,匹配上有数,匹配不上为0,不影响原模型
test_c = ['爸爸 爸爸 爱 玩 lol']

test_a = ['天天 爱 LOL',
          '爱 玩 游戏',
          '我 是 男生',
          '男生 ',
         '爸爸 也 爱 玩 lol'
          ]
tf = CountVectorizer()
print(tf.fit_transform(test_a).toarray())
print(tf.vocabulary_)  # 返回columns字段字典

test_b = ['爸爸 爸爸 爱 玩 lol']
print(tf.transform(test_b).toarray())  # 以test_a数据创建的词袋模型,一一查找新文本,匹配上有数,匹配不上为0,不影响原模型
test_c = ['爸爸 爸爸 爱 玩 lol']
print(tf.transform(test_c).toarray())  # 以test_a数据创建的词袋模型,一一查找新文本,匹配上有数,匹配不上为0

目前结论:

模型以新文档数据创建的词袋模型,一一查找新文本的分词结果,

匹配上填充单体基于新文档,总体文档基于测试集算的的tf-idf值

新文档有的,而模型中词袋模型没有的词填充为0,不影响原模型

posted @ 2021-03-29 18:22  旁人怎会懂  阅读(209)  评论(0编辑  收藏  举报