2011年3月28日
摘要: 说明:《基于行块分布函数的通用网页正文抽取》是哈尔滨工业大学信息检索研究中心陈 鑫 (Xin Chen) 的研究成果,详细看这里:http://code.google.com/p/cx-extractor/ ,完整算法及C#实现从这里下载:http://files.cnblogs.com/ideas/TextExtractor.rar 看了这个算法之后,对网页内容的抓取,很有启发。如果要实现抓规... 阅读全文
posted @ 2011-03-28 17:12 ideas 阅读(1630) 评论(1) 推荐(1)
摘要: db.runCommand( { mapreduce : <collection>, map : <mapfunction>, reduce : <reducefunction> [, query : <query filter object>] [, sort : <sort the query. useful for optimization>] [, limit : <number of o... 阅读全文
posted @ 2011-03-28 14:49 ideas 阅读(2332) 评论(0) 推荐(0)