摘要: 我们已经利用larbin从网上抓取了六千多个HTML文件,在使用clucene建立索引之前,我们还需要把HTML文件中的各种无用的标签去掉,形成只包含有实际内容的文档.html2txt就是这样一个工具. 阅读全文
posted @ 2011-04-30 22:27 张朝阳讲go语言 阅读(4992) 评论(0) 推荐(0)