文本分类中样本的筛选(基于VSM模型)
1、选筛选的人对分类的结构、每个分类中应该有哪些文章应该比较清楚并有一定的理解。
2、择较容易判别、典型的文章:一篇文章大致阅读以后,就能判定这篇文章属于哪个类别,而且可以指出因为哪些词语而使得这篇文章归属到该类别,这样的样本为上佳样本。
3、感觉这篇文章会在类别中有交叉,则立即放弃 。
4、对于分类中可能出现的文章内容,每个都筛选一些样本 。
反例:关于时事新闻的类别可能包含的内容:国际时事、近期的国际事件(钓鱼岛)、美国大选等等,但选样本是选择所有的文章均是关于钓鱼岛事件的 。这些样本典型,而且和别的分类交叉也不大,但这样的样本总体来说是不好的,不能代表整体。
正例:选一些关于美国大选的文章、选一些关于台陆关系的文章,选一些关于钓鱼岛事件的文章 。
5、样本文本不要选太长的文本,一般选取适中的文章 。
自己的一些见解,欢迎讨论、更正.....

浙公网安备 33010602011771号