近期要对数据库内的文章表,进行分类汇总,同时要对新增加的文章自动分类,想做以下的方案:
1、提取关键词的分类。通过中文分词对文章的标题和内容进行关键词的提取,选出每篇文章所出现前10个关键词,然后对这些关键词进行汇总到一个分类表内,其中关键词属于哪个分类,这个工作由手工分类(暂时想不出好的办法)。
2、对原来的文章进行分类。循环读取数据库内的文章,然后对文章的标题和内容利用中文分词技术提取10个关键词,然后再分别对这10个关键词到刚才的分类表,查询出每个关键词所对应的类别。关键词所对应那个分类越多,这篇文章就属于那个分类。这种情况是在正常情况下,所得到的理想结果。而在一些非正常情况下的处理,如下:
a、通过中文分词,无法提取关键词:这种情况下,处理1、不对此文章进行分类;处理2、通过查看文章,手工选出关键词,然后再分类;处理3、手工分类;
b、通过中文分词后,对应分类表,关键词所对应的分类一样多。这种情况,就选第一个关键词对应的分类;
c、通过中文分词后,关键词不够10个。这种情况,就处理存在的关键词的个数;
3、对新增加的文章进行分类。这种分类跟2类似。
以上,为文章自动分类的解决方案的一个设想。程序正在写,这是一个设想。
1、提取关键词的分类。通过中文分词对文章的标题和内容进行关键词的提取,选出每篇文章所出现前10个关键词,然后对这些关键词进行汇总到一个分类表内,其中关键词属于哪个分类,这个工作由手工分类(暂时想不出好的办法)。
2、对原来的文章进行分类。循环读取数据库内的文章,然后对文章的标题和内容利用中文分词技术提取10个关键词,然后再分别对这10个关键词到刚才的分类表,查询出每个关键词所对应的类别。关键词所对应那个分类越多,这篇文章就属于那个分类。这种情况是在正常情况下,所得到的理想结果。而在一些非正常情况下的处理,如下:
a、通过中文分词,无法提取关键词:这种情况下,处理1、不对此文章进行分类;处理2、通过查看文章,手工选出关键词,然后再分类;处理3、手工分类;
b、通过中文分词后,对应分类表,关键词所对应的分类一样多。这种情况,就选第一个关键词对应的分类;
c、通过中文分词后,关键词不够10个。这种情况,就处理存在的关键词的个数;
3、对新增加的文章进行分类。这种分类跟2类似。
以上,为文章自动分类的解决方案的一个设想。程序正在写,这是一个设想。
浙公网安备 33010602011771号