06 2012 档案

关于Generating aspect-oriented Muti-Document Document summarization with event-aspect model
摘要:这篇文章明天要开会讨论,还是先看吧。。1、文章讨论的是基于话题的多文档文摘,作者首先借助LDA主题模型对句子进行聚类,然后使用LexRank算法对各个聚簇中的句子进行排序,最后应用线性判选取句子。这里面比较特别的是,他在对句子进行打分以后,对于候选句子进行一次修剪工作,并且他用的不是句子语法树,而是对这个方法进行了一些细致的改进。2、文章的三个功能:a、相似意义语句的聚簇。b、基于随机游走模型的句子排序(LexRank不懂)c、提出一种新的句子压缩算法,有别于句法树。3、局域话题文摘的三个应用:a、生成类似于维基百科那样的东东,给出一个东东各个方面的简介。b、对于一个问题不同人有不同的观点,抽 阅读全文

posted @ 2012-06-28 20:00 Vanior 阅读(318) 评论(0) 推荐(0)

关于 Indentifying Non-explicit Citing Sentences for Citation-based Summarization
摘要:边读边总结疑问,英语差的惹不起。。1、本文研究的是基于背景语料形成文摘。他认为背景语料分为两种,即引用信息明确和引用信息不明确两种,其中不不明确往往是因为内容果断等原因,因此需要将这些引用句进行扩展,得到上下文,确定引用的真正意图。2、问题:他说将每个句子视为一个随机变量,这个随机变量的值取决于目标文章的状态。然后他说用图模型产生这些随机变量。。。对自然语言接触太短,这个不懂!!!3、用的数据是来自于ACL,十篇关于NLP的文章,包含203个参考文献,数据给出编号、坐着、title、年份、引用数、引用句子数等。其中引用分为引用文献在AAn中和不在AAN中。4、对于背景预料的研究,首先,开始关注 阅读全文

posted @ 2012-06-26 21:21 Vanior 阅读(242) 评论(0) 推荐(0)

导航