网络爬虫的分析算法

爬虫节点爬取到的网页数据会存放到资源库中,资源库对爬取到的数据进行分析并建立索引,分析算法有以下几种

(1) 基于用户行为的分析算法:根据用户对网页的访问频率 、访问时长 、点击率等对网页数据进行分析
(2) 基于网络拓扑的分析算法:根据网页的外链 、网页的层次 、网页的等级等对网页数据进行分析,计算出网页的权重,对网页进行排名
(3) 基于网页内容的分析算法:根据网页的外观 、网页的文本等内容特征对网页数据进行分析

 

 

 

 

 

 

     

posted @ 2019-03-14 15:58  孔雀东南飞  阅读(1753)  评论(0编辑  收藏  举报