爬虫的目的是爬取数据,是以目标为导向的程序,根据数据类型又分为图片,视频等文件性数据,数据表,统计结果,评论,内容等文字性数据,针对文件性数据,核心点在于在网页元素中找到对应的下载链接,针对文字性数据,需要先区分是动态网页还是静态网页,如果是静态可以直接爬取,如果是动态则需要使用seleium或其他动态网页技术爬取。 爬取的页面可能需要根据实际的观测结果来确认目标网页的page数。 文字性内容的爬取可使用通用爬虫,先爬取整个网页,然后提取网页元素中的信息内容