摘要:
昨天写了一篇关于提取网页主题内容的文章,其中用到了一个叫SgmlReader将html标准化成xhtml格式的东西。今天在查询其相关信息的时候,发现了NReadability这个东东,发现这个东西也是提取网页主题内容的,发现效果貌似比我写的那个简单的要好很多。获取代码请访问github。 该工具中还带SgmlReader的源代码,可以说是很给力的,其中还为Xml Dom写了一些关于html Dom... 阅读全文
posted @ 2011-10-07 10:30
小橋流水
阅读(245)
评论(0)
推荐(0)
浙公网安备 33010602011771号