07 2011 档案
摘要:开源:基于百万商业圈.NET开发框架开发的并行带分词的采集器并行采集并做分词处理,在2MB带宽下测试平均:100 URL 用时3秒种特点:各种编码自动识别、各种编码自动转换、对有压缩的页能自动解压、采集信息细致全面、程序非常稳定 等 链接 + doc.Url + " 采集信息如下主机名 + doc.HostName + "<内容类型 + doc.ContentType编码:+ doc.Encoding + "<brMime类型:+ doc.MimeType +服务器IP地址:+ doc.ServerI所用WebServer:+ doc.WebSerPr
阅读全文
浙公网安备 33010602011771号