摘要: 爬虫又称为网页蜘蛛,是一种程序或脚本。 但重点在于,它能够按照一定的规则,自动获取网页信息。 爬虫的基本原理——通用框架 1.挑选种子URL; 2.讲这些URL放入带抓取的URL列队; 3.取出带抓取的URL,下载并存储进已下载网页库中。此外,讲这些URL放入带抓取URL列队,进入下一循环。 4.分 阅读全文
posted @ 2020-08-23 18:05 程序员的人生A 阅读(2234) 评论(0) 推荐(0) 编辑