摘要: 摘要-万维网是一个通过HTML格式使数十亿的文件产生联系的集合 ,然后如此规模庞大的数据已经成为信息检索的障碍,用户为了查找自己想要的资料可能要翻转数页。网络爬虫是搜索引擎的核心部分,网页爬虫持续不断的在互联网上爬行来寻找任何新的增加到网络中的页面和已经从网上删除页面。由于网页的持续的增长和动态性, 阅读全文
posted @ 2017-05-19 17:06 博大精深 阅读(265) 评论(0) 推荐(0)
摘要: 摘要-万维网是一个通过HTML格式使数十亿的文件产生联系的集合 ,然后如此规模庞大的数据已经成为信息检索的障碍,用户为了查找自己想要的资料可能要翻转数页。网络爬虫是搜索引擎的核心部分,网页爬虫持续不断的在互联网上爬行来寻找任何新的增加到网络中的页面和已经从网上删除页面。由于网页的持续的增长和动态性, 阅读全文
posted @ 2017-05-19 17:02 博大精深 阅读(106) 评论(0) 推荐(0)