爬虫开发实践经验

爬虫的目的是爬取数据，是以目标为导向的程序，根据数据类型又分为图片，视频等文件性数据，数据表，统计结果，评论，内容等文字性数据，针对文件性数据，核心点在于在网页元素中找到对应的下载链接，针对文字性数据，需要先区分是动态网页还是静态网页，如果是静态可以直接爬取，如果是动态则需要使用seleium或其他动态网页技术爬取。
爬取的页面可能需要根据实际的观测结果来确认目标网页的page数。
文字性内容的爬取可使用通用爬虫，先爬取整个网页，然后提取网页元素中的信息内容