通用爬虫
通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
通用搜索引擎(Search Engine)工作原理
通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。
爬虫本质
"""
http协议---》应用层协议---》主流软件(web,app,小程序)--->基本都是走http
爬取:网站pc端,app,小程序 的数据
可见及可爬
"""
1. 模拟发送http请求(python模块
2. 服务端返回数据
3.数据清洗(模块)
4.入库(mysql,文件,redis,mongodb,es)
# 爬虫并不是只有python可以做,任何语言都可以做
# python做爬虫好处:简单,异步爬虫框架scrapy
聚焦爬虫
聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。