通用爬虫聚焦爬虫

#通用爬虫聚焦爬虫
#通用爬虫：搜索引擎用的爬虫系统
#目标：就是尽可能把互联网上所有的网页爬下来，放到本地服务器形成备份
#        再对这些网页做相关处理（提取关键字，去掉广告），最后提供一个用户接口
#抓取流程：
#    首先选取一部分URL，把这些URL放到带爬取队列
#    从队列里取这些url 然后解析dns得到主机IP，然后去这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本地服务器
#        之后把这个爬过的url放入已爬取队列
#    分析这个网页内容，找出网页里其他的url链接，继续执行上边的步骤
#搜索引擎如何获取一个新闻网站的url：
#    主动向百度的站长之家等网站提交自己的url网址
#    再其他网站里面设置网站外链
#    搜索引擎会和dns服务商进行合作，可以快速收录心得网站

#通用爬虫并不是万物接可爬，他也需要遵守规则：
# Robots协议：协议会指明通用爬虫可以爬取网页的权限

#DNS域名服务器：
#    把域名解释成IP的一种技术
#    cmd里输入:ping www.baidu.com
#    把输入的url地址发送到dns解析器上做解析
#    解析成IP
#    如果直接再浏览器输入IP就直接访问目标地址的web服务器
#    如果输入url，则先把url发到dns，dns再把IP返回来，浏览器再访问IP（web服务器）

#聚焦爬虫：爬虫程序员写的针对某种内容爬虫

posted @ 2020-10-26 10:59 Eric_Z-HACK 阅读(112) 评论(0) 收藏举报

刷新页面返回顶部

Eric_Z-HACK

通用爬虫 聚焦爬虫

公告

通用爬虫聚焦爬虫