摘要:
一. 认识网络爬虫 说起网络爬虫,人们常常会用这样一个比喻:如果把互联网比喻成一张网,那么网络爬虫就可以认为是一个在网上爬来爬去的小虫子,它通过网页的链接地址来寻找网页,通过特定的搜索算法来确定路线,通常从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一 阅读全文
posted @ 2023-09-05 20:43
不知名佳佳
阅读(60)
评论(0)
推荐(0)
摘要:
首先精心选择一些URL,把这些精心选择的URL放入URL队列中,从对列中捉取代取的URL读取URL之后开始解析DNS,把这些URL下载下来放入网页库中。 基本流程就是:发送请求-获取响应内容-解析内容-保存数据。 从网络爬虫的角度可以把互联网分为五种 1;已下载未过期网页 2;已下载过期网页 3;待 阅读全文
posted @ 2023-09-05 20:34
不知名佳佳
阅读(26)
评论(0)
推荐(0)

浙公网安备 33010602011771号