通用爬虫 聚焦爬虫
#通用爬虫 聚焦爬虫
#通用爬虫:搜索引擎用的爬虫系统
#目标:就是尽可能把互联网上所有的网页爬下来,放到本地服务器形成备份
# 再对这些网页做相关处理(提取关键字,去掉广告),最后提供一个用户接口
#抓取流程:
# 首先选取一部分URL,把这些URL放到带爬取队列
# 从队列里取这些url 然后解析dns得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器
# 之后把这个爬过的url放入已爬取队列
# 分析这个网页内容,找出网页里其他的url链接,继续执行上边的步骤
#搜索引擎如何获取一个新闻网站的url:
# 主动向百度的站长之家等网站 提交自己的url网址
# 再其他网站里面设置网站外链
# 搜索引擎会和dns服务商进行合作,可以快速收录心得网站
#通用爬虫:搜索引擎用的爬虫系统
#目标:就是尽可能把互联网上所有的网页爬下来,放到本地服务器形成备份
# 再对这些网页做相关处理(提取关键字,去掉广告),最后提供一个用户接口
#抓取流程:
# 首先选取一部分URL,把这些URL放到带爬取队列
# 从队列里取这些url 然后解析dns得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器
# 之后把这个爬过的url放入已爬取队列
# 分析这个网页内容,找出网页里其他的url链接,继续执行上边的步骤
#搜索引擎如何获取一个新闻网站的url:
# 主动向百度的站长之家等网站 提交自己的url网址
# 再其他网站里面设置网站外链
# 搜索引擎会和dns服务商进行合作,可以快速收录心得网站
#通用爬虫并不是万物接可爬,他也需要遵守规则:
# Robots协议: 协议会指明通用爬虫可以爬取网页的权限
# Robots协议: 协议会指明通用爬虫可以爬取网页的权限
#DNS域名服务器:
# 把域名解释成IP的一种技术
# cmd里输入:ping www.baidu.com
# 把输入的url地址发送到dns解析器上做解析
# 解析成IP
# 如果直接再浏览器输入IP就直接访问目标地址的web服务器
# 如果输入url,则先把url发到dns,dns再把IP返回来,浏览器再访问IP(web服务器)
# 把域名解释成IP的一种技术
# cmd里输入:ping www.baidu.com
# 把输入的url地址发送到dns解析器上做解析
# 解析成IP
# 如果直接再浏览器输入IP就直接访问目标地址的web服务器
# 如果输入url,则先把url发到dns,dns再把IP返回来,浏览器再访问IP(web服务器)
#聚焦爬虫:爬虫程序员写的针对某种内容爬虫

浙公网安备 33010602011771号