通过Web预测网页出版日期的学习

背景:

近年来,时间维在搜索引擎中的重要性日益增加。在多种索引任务中,页面发布日期是重要组成部分。最新发布的页面中的内容和其所包含的链接的信息更具有时效性,因此在网页爬取过程中,这些页面更应优先被抓取。在索引排名中,页面发布日期也是应考虑的一个方面。所以,我们需要一个可靠的算法去遍历web结构中的所有网页,并找出或估算出他们的页面发布日期。

 

研究难点:

纵观整个网络,并不是所有网页的发布日期都在固定的位置,举例说明:

有些网页的发布日期在其URL中,如http://www.zosou.com/sw/articleview/2005-11-20/article_view_1554.htm;

有些时间记录在HTML <title>

 

有些则存在于HTML <body>中,并可能包含多个无关日期

 

有些网页则不包含任何有关时间的信息。

 

这些页面差异无形中增加了获取或估算页面发布日期的难度。

 

研究目标:设计一种算法在差异化网页中找出网页发布日期

 

旧的思路:

1、基于内容的检测方法。从web文本中获取候选日期,并从获选日期中选举出页面发布日期。在这里,所有的三个必要步骤制成:日期提取,候选日期正常化,选择正确的出版日期。但是,这种方法只能应用到在其文本或网址中包含出版日期的页面。对于不包含日期的页面,这种方法无效。

2、基于链接结构的检测方法。对于一个待估测的页面,依据它邻居的发布日期来估测出该页面的发布日期。

3、基于语言模型的检测方法:

语言模型也常常应用于确定网页凭证日期,依靠语言的相似度去匹配两个页面的文档,但推测日期的结果一般是粗糙而不可靠的。

 

新的思路:结合基于内容的检测方法和基于链接结构的检测方法来设计算法。

 

算法描述:             

阶段1:基于内容的提取锚和种子日期

第一阶段我们的算法从每个页面的URL和HTML body来提取候选日期,并从候选日期中选择最可能的出版日期一些页面比较有可能探测出可靠日期,它们在算法中将被固定为其它网页的锚固日期(anchor dates)。对于一些其他页面,候选日期也可以提取的,但他们不太可靠,这样的日期被称为种子日期(seed dates)。

阶段2: 锚固日期和种子日期的传递

对于文本中没有日期的页面,从相邻页面中选择近似的日期。在实验中,如果一些页面在传递后仍然没有日期,则为它们设置一些常量值。

阶段3:似然优化

种子日期、传播日期和常数日期通过似然优化的方法一起构成初始日期,我们的方法是基于网络演化模型,在3.5节给出描述。锚固日期是在URL或HTML body中提取出的可靠日期,在基于链接结构的过程中不会被更改,种子日期是文本中提取的不可靠日期,传递日期是日期传递算法计算的结果,其它没有日期结果的页面被设置常数日期。       

 http://www.tomodachinpo.com/%E9%9F%93%E5%9B%BD%E4%BA%BA/

锚固日期和种子日期的提取

对于网页文件的不同位置提取的日期,他们的可靠性不同。按其可靠性设置提取权重(由大到小):

1. URL 

2. 标题 

3. 主要内容之前 

4. 主要内容之后

5. 主要内容 

6. 其他位置

按以上顺序提取,若在高权重位置提取到日期,则不进行在的权重位置的提取。在1、2、3位置提取到的日期可作为锚固日期,在4、5、6位置提取到的日期只能作为种子日期。

posted @ 2016-04-07 14:06  音为  阅读(408)  评论(0编辑  收藏  举报