通用爬虫 聚焦爬虫

#通用爬虫 聚焦爬虫
#通用爬虫:搜索引擎用的爬虫系统
#目标:就是尽可能把互联网上所有的网页爬下来,放到本地服务器形成备份
#        再对这些网页做相关处理(提取关键字,去掉广告),最后提供一个用户接口
#抓取流程:
#    首先选取一部分URL,把这些URL放到带爬取队列
#    从队列里取这些url 然后解析dns得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器
#        之后把这个爬过的url放入已爬取队列
#    分析这个网页内容,找出网页里其他的url链接,继续执行上边的步骤
#搜索引擎如何获取一个新闻网站的url:
#    主动向百度的站长之家等网站 提交自己的url网址
#    再其他网站里面设置网站外链
#    搜索引擎会和dns服务商进行合作,可以快速收录心得网站
#通用爬虫并不是万物接可爬,他也需要遵守规则:
#    Robots协议:  协议会指明通用爬虫可以爬取网页的权限 
#DNS域名服务器:
#    把域名解释成IP的一种技术
#    cmd里输入:ping www.baidu.com
#    把输入的url地址发送到dns解析器上做解析
#    解析成IP
#    如果直接再浏览器输入IP就直接访问目标地址的web服务器
#    如果输入url,则先把url发到dns,dns再把IP返回来,浏览器再访问IP(web服务器)
#聚焦爬虫:爬虫程序员写的针对某种内容爬虫
posted @ 2020-10-26 10:59  Eric_Z-HACK  阅读(112)  评论(0)    收藏  举报