Fast Search:爬网测试 -- 金大昊(jindahao)
今天对fastsearch爬业务公开数据做了详细的记录,由于sharepoint默认支持100万条爬网数据量,所以只爬了100万条(如果需要爬更多的数据可设置)。以下是记录的爬网数据:
用时(hh:mm)爬网数量(条)硬盘剩余(G)内存(G) cup占用(%)
--------------------------------------------------------
00:00       88600      79       8.1        1
00:44       88601      79       8.2        1
00:55      107300      76.5     9.4       99
00:58      110900      74.8     9.4       99
01:01      117000      74.1     9.4      100
01:07      133100      75.7     9.4      100
01:16      157600      75.4     9.4      100
01:21      171600      75.1     9.4      100
01:43      233400      72.4     9.4      100
03:03      460300      67.1     9.4      100
03:36      550300      68.8     9.4      100
04:20      671300      64.3     9.2      100
05:10      805200      59.7     9.2      100
05:28      854100      67.0     8.7      100
06:57     1088602      63.4     8.6        1 
单看上面的数据可以看出每小时所爬数据量为20万,速度不快,不如solr,我认为这个不好比较,原因如下:
- 我安装fast用的是虚机,solr用实体机
 - fast是爬网,solr是推送数据,如果需要爬网需要开发
 
只从表面对比fast的好处如下:
- sharepoint可边爬网边查询,solr需要开发
 - fast搜索速度快,具体指标如下:
 
关键字 搜索结果数据量(条) 第一次搜索用时(秒) 第二次搜索用时(秒)
---------------------------------------------------------------------------------
‘1’ 1,088,522 0.1400 0.0150
‘订单’ 1,001,962 0.1370 0.0140
这是虚机的测试结果,如果采用实体机我相信会更快。
还可以看出在第二次搜索时明显又快了,这很容易解释因为采用了缓存。
当然solr也有好处就是开源,而fast是需要付出3万多美元的或更多。
也发现了个问题,就是fast在爬网的时候很耗cpu,使得网站访问速度变慢,这也就可以解释为什么官网要求sharepoint和fast不要安装在一起的原因了。
作者:金大昊
努力过就不后悔
                    
                
                
            
        
浙公网安备 33010602011771号