初始爬虫

通用爬虫

通用网络爬虫 是 捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

通用搜索引擎（Search Engine）工作原理

通用网络爬虫 从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

爬虫本质

"""
http协议---》应用层协议---》主流软件(web,app,小程序)--->基本都是走http
爬取：网站pc端，app，小程序  的数据
可见及可爬
"""

1. 模拟发送http请求(python模块
2. 服务端返回数据
3.数据清洗(模块)
4.入库(mysql,文件，redis，mongodb，es)

# 爬虫并不是只有python可以做，任何语言都可以做
# python做爬虫好处：简单，异步爬虫框架scrapy

聚焦爬虫

聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于： 聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

posted @ 2022-03-15 20:28 yang_night 阅读(29) 评论(0) 收藏举报

刷新页面返回顶部