会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
lk-ky
博客园
首页
新随笔
联系
订阅
管理
文章分类 -
新闻抓取技术
基于html正文提取思想
摘要:一、基于统计的中文网页正文抽取的研究摘要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的...
阅读全文
posted @
2016-01-18 10:39
kl-ky
阅读(413)
评论(0)
推荐(0)
公告
// 侧边栏目录