爬虫的基本知识

# 聚焦爬虫的设计思路:
1.确定url, 发起请求, 获取响应---> 抓包, requests, urllib, aiohttp, scrapy
2.数据解析 --> 目标数据, xpath, re正则, bs4, pyquery
3.数据持久化 --> 文件系统, 数据库 --> MySQL, MongoDB, redis--> 介绍, 数据类型, 常用操作:增删改查, 主从复制, 集群的搭建

 

 

# 聚焦爬虫
针对某一领域抓取特定数据的爬虫程序(主题爬虫, 垂直领域爬取)
某一领域: 电商; 金融量化分析--> 股票网站, 金融咨询类
特定数据: 响应数据中的一本分, 目标数据 ---> 数据解析来实现的

 

 

# 通用爬虫: 爬虫程序. 爬取数据为搜索引擎提供检索服务
# 通用爬虫架构: 如下图
# 使搜索引擎获取到你的网站:
1).主动提交: https://ziyuan.baidu.com/linksubmit/url
2).设置友情链接
3).搜索引擎与DNS服务商合作
# SEO排名
1).花钱--->百度竞价
2).pagerank(流量点击率)
# 缺点: 抓取的内容多, 但是多数无用; 不能精准解析数据

# robots协议:
1.作用: 约定了网站哪些页面不允许哪些爬虫爬取
2.代表除了以上规定的爬虫, 其他任何和爬虫不允许爬取我任何页面(包括聚焦爬虫)
User-agent: *
Disallow: /

posted @ 2020-03-31 13:47  A不然  阅读(91)  评论(0编辑  收藏  举报