中文多文档自动摘要

第一步,获取语料(数据库,子旋师兄)和测试集。(泽枫)

第二步,使用mead(java,传懋)和sumbasic(python,柏棋)方法实现一下看看效果;(瑞滨)

第三步,使用遗传算法和人工蜂群算法实现看效果怎样;(泽枫)

第四步,在阵雨师兄暑假提取关键词任务的基础上,由关键词拓展为自动摘要,进而拓展为多文档自动摘要;(柏棋)

第五步,在阵雨师兄暑假提取关键词特征的基础上,将其丢入sklearn分类器训练,同时实现learning to rank 的词排序方法,由关键词扩展为自动摘要,进而扩展为多文档自动摘要。(柏棋)

第六步,将多文档自动摘要的各类算法分别迁移到英文和印尼语上,看效果如何。(泽枫,瑞滨,柏棋)

第七步,实现可视化。(瑞滨)

第八步,写paper。(泽枫,瑞滨,柏棋——负责写好各自算法的那部分论文,若妍负责整合编辑和排版,加上补充说明)

 

SumBasic对每个非停用词赋予一个权重,句子的分值定义为其中词汇的平均权值。词汇的初始权重即为词频,在该词被选进摘要后,其权重随进入摘要的次数呈指数级下降,最终该算法应用于项目组的印尼舆情系统(已获得国家级的软件著作权)中;