07 2011 档案

开源：基于百万商业圈.NET开发框架开发的并行带分词的采集器

摘要：开源：基于百万商业圈.NET开发框架开发的并行带分词的采集器并行采集并做分词处理，在2MB带宽下测试平均：100 URL 用时3秒种特点：各种编码自动识别、各种编码自动转换、对有压缩的页能自动解压、采集信息细致全面、程序非常稳定等链接 + doc.Url + " 采集信息如下主机名 + doc.HostName + "<内容类型 + doc.ContentType编码：+ doc.Encoding + "<brMime类型：+ doc.MimeType +服务器IP地址：+ doc.ServerI所用WebServer：+ doc.WebSerPr 阅读全文

posted @ 2011-07-10 23:25 it亮眼阅读(303) 评论(0) 推荐(0)

07 2011 档案

公告