文章分类 -  新闻抓取技术

摘要:一、基于统计的中文网页正文抽取的研究摘要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的... 阅读全文
posted @ 2016-01-18 10:39 kl-ky 阅读(413) 评论(0) 推荐(0)

// 侧边栏目录