web页面列表的内容抽取

刚才一朋友有一个需求,就是抽取web页面列表的内容

例如论坛的帖子列表,他要求通用化的


简单地想了一下,思路如下:

利用HtmlAgilityPack (C#) 把页面的html变成DOM树以方便操作
遍历节点,计算节点之间的相似度
如果节点的相似度比较高的就可以认为是相似的节点
而且通过DOM树可以知道节点是否同级
如果同级或者层次相同的话
那么基本上就是列表里面的节点了

简单思路,欢迎讨论
posted @ 2008-05-30 16:35  T.t.T!Ck.¢#  阅读(1296)  评论(7编辑  收藏  举报