摘要: 1、一个人的猫丢了,打电话到警察局,Pol.ice说:“对不起,这不属于我们的职责范围。” 她向Pol.ice强调:“你们不明白,这是一只非常聪明的猫,它就和人一样,会说话。” Pol.ice:“那它会打电话吗?” 2、中午下班回家,我问炒的什么菜。 妹抢先说:“豆角炒肉。” 我看了满盘子的豆角问: 阅读全文
posted @ 2020-10-29 20:45 Python锦河 阅读(303) 评论(0) 推荐(0)
摘要: 平衡礼貌策略 爬虫相比于人,可以有更快的检索速度和更深的层次,所以,他们可能使一个站点瘫痪。不需要说一个单独的爬虫一秒钟要执行多条请求,下载大的文件。一个服务器也会很难响应多线程爬虫的请求。 就像Koster(Koster,1995)所注意的那样,爬虫的使用对很多工作都是很有用的,但是对一般的社区, 阅读全文
posted @ 2020-10-29 20:06 Python锦河 阅读(376) 评论(0) 推荐(0)
摘要: 开源爬虫 > DataparkSearch是一个在GNU GPL许可下发布的爬虫搜索引擎。 > GNU Wget是一个在GPL许可下,使用C语言编写的命令行式的爬虫。它主要用于网络服务器和FTP服务器的镜像。 > Heritrix是一个互联网档案馆级的爬虫,设计的目标为对大型网络的大部分内容的定期存 阅读全文
posted @ 2020-10-29 15:47 Python锦河 阅读(209) 评论(0) 推荐(0)