2020 年 8月 23 日随笔档案 - 程序员的人生A

2020年8月23日

摘要：爬虫又称为网页蜘蛛，是一种程序或脚本。但重点在于，它能够按照一定的规则，自动获取网页信息。爬虫的基本原理——通用框架 1.挑选种子URL； 2.讲这些URL放入带抓取的URL列队； 3.取出带抓取的URL，下载并存储进已下载网页库中。此外，讲这些URL放入带抓取URL列队，进入下一循环。 4.分阅读全文

posted @ 2020-08-23 18:05 程序员的人生A 阅读(2234) 评论(0) 推荐(0) 编辑

程序员的人生A

公告