随笔分类 -  论文笔记

关于文章 Generating Impact-Based Summaries... By Mei qiaozhu
摘要:1、作者认为,一篇文章的被引用情况可以反映此文章的影响力,所以他产生的文摘是基于影响力的,他的模型在训练时,是使用了原始文本和文本的引用句子作为数据集,但是最终抽取句子形成文摘,缺是只从原始文本中抽取,引用句子的影响度用原文来表示(这也就是为什么他要寻找分布最相似的)。2、他不用引用句子的原因是,引用句子大多会夹杂一些其他非我们关注的信息。3、这里面他建立的一个语言语言模型。不同的是,它是以一个句子为单位。在这,这里他看的不是句子的频率(有词频得到),而是句子的影响力(这也是一个概率)。3、他建立了两个语言模型,一个是针对整个样本集(原文,和Citation窗口句子),一个则是针对备选句子。然 阅读全文

posted @ 2012-07-31 22:00 Vanior 阅读(263) 评论(0) 推荐(0)

关于GCSTA by zrx
摘要:这篇文章也是关于aspect的,他基于aspect在连贯性上做了突破。1、他认为现在大部分的文摘系统对于获取关键信息都是采用的统计的方法,但是当我们要获取某些特定信息时这种方法并不奏效,比如让我要知道一场灾难的原因,很多描述原因的句子中并不一定会出现cause这个词,这时统计便可能会漏掉这些重要信息。因此就出现aspect了撒~~2、aspect分为verb aspect 和products aspect。3、此论文生成的文摘的特点:a、侧重于用户需求。b、文摘连贯(这里的连贯指的是内容上的连贯,不是表法方式上的连贯)。4、对于基于aspect的文摘,他觉得用以往的监督或者无监督的学习算法,聚 阅读全文

posted @ 2012-07-03 14:52 Vanior

关于 Indentifying Non-explicit Citing Sentences for Citation-based Summarization
摘要:边读边总结疑问,英语差的惹不起。。1、本文研究的是基于背景语料形成文摘。他认为背景语料分为两种,即引用信息明确和引用信息不明确两种,其中不不明确往往是因为内容果断等原因,因此需要将这些引用句进行扩展,得到上下文,确定引用的真正意图。2、问题:他说将每个句子视为一个随机变量,这个随机变量的值取决于目标文章的状态。然后他说用图模型产生这些随机变量。。。对自然语言接触太短,这个不懂!!!3、用的数据是来自于ACL,十篇关于NLP的文章,包含203个参考文献,数据给出编号、坐着、title、年份、引用数、引用句子数等。其中引用分为引用文献在AAn中和不在AAN中。4、对于背景预料的研究,首先,开始关注 阅读全文

posted @ 2012-06-26 21:21 Vanior 阅读(244) 评论(0) 推荐(0)

导航