2016 年 12月 27 日随笔档案 - 测试梦工厂

2016年12月27日

Python爬虫入门

摘要：网络爬虫始于一张被称作种子的统一资源地址（URLs）列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张＂待访列表＂，即所谓＂爬行疆域＂（crawl frontier）。此疆域上的统一资源地址将被按照一套策略循环访问。如果爬虫在他执行的过程中复制归档和保存网站上阅读全文

posted @ 2016-12-27 22:17 测试梦工厂阅读(191) 评论(0) 推荐(0)

测试梦工厂

公告

Python爬虫入门