摘要:
这里说的正文提取/抽取,指的是从任意页面中抽取出网页的正文内容,要过滤掉导航、广告等不相关内容。从网页中提取的正文一般来说模板是最好最准确的方式,在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作,而且如果抓取的种子站过多... 阅读全文
posted @ 2008-12-10 20:36
隨風.NET
阅读(1804)
评论(1)
推荐(0)

浙公网安备 33010602011771号