初始爬虫

通用爬虫

通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

通用搜索引擎(Search Engine)工作原理

通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。

爬虫本质

"""
http协议---》应用层协议---》主流软件(web,app,小程序)--->基本都是走http
爬取:网站pc端,app,小程序  的数据
可见及可爬
"""

1. 模拟发送http请求(python模块
2. 服务端返回数据
3.数据清洗(模块)
4.入库(mysql,文件,redis,mongodb,es)

# 爬虫并不是只有python可以做,任何语言都可以做
# python做爬虫好处:简单,异步爬虫框架scrapy

聚焦爬虫

聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
posted @ 2022-03-15 20:28  yang_night  阅读(25)  评论(0)    收藏  举报