07 2011 档案

摘要:开源:基于百万商业圈.NET开发框架开发的并行带分词的采集器并行采集并做分词处理,在2MB带宽下测试平均:100 URL 用时3秒种特点:各种编码自动识别、各种编码自动转换、对有压缩的页能自动解压、采集信息细致全面、程序非常稳定 等 链接 + doc.Url + " 采集信息如下主机名 + doc.HostName + "<内容类型 + doc.ContentType编码:+ doc.Encoding + "<brMime类型:+ doc.MimeType +服务器IP地址:+ doc.ServerI所用WebServer:+ doc.WebSerPr 阅读全文
posted @ 2011-07-10 23:25 it亮眼 阅读(303) 评论(0) 推荐(0)