摘要: 用nginx屏蔽爬虫的方法 1. 使用"robots.txt"规范 在网站根目录新建空白文件,命名为"robots.txt",将下面内容保存即可。 User-agent: BaiduSpiderDisallow:User-agent: YisouSpiderDisallow:User-agent: 阅读全文
posted @ 2021-05-13 20:41 walkersss 阅读(1332) 评论(0) 推荐(0) 编辑
摘要: /** * ThinkPHP 默认的调试模式配置文件 */ defined('THINK_PATH') or exit();// 调试模式下面默认设置 可以在应用配置目录下重新定义 debug.php 覆盖return array( 'LOG_RECORD' => false, // 进行日志记录 阅读全文
posted @ 2021-05-13 18:50 walkersss 阅读(396) 评论(0) 推荐(0) 编辑
摘要: Robots协议的写法既然网络爬虫在爬取一个网站之前,要先获取到这个文件,然后解析到其中的规则,那么,Robots就必须要有一套通用的语法规则。 最简单的robots.txt只有两条规则: User-agent:指定对哪些爬虫生效 Disallow:指定要屏蔽的网址 先说User-agent,爬虫抓 阅读全文
posted @ 2021-05-13 18:48 walkersss 阅读(514) 评论(0) 推荐(0) 编辑