nginx自动切割访问日志

Web 访问日志 (access_log) 记录了所有外部客户端对Web服务器的访问行为，包含了客户端IP，访问日期，访问的URL资源，服务器返回的HTTP状态码等重要信息。
一条典型的Web访问日志如下：

112.97.37.90 - - [14/Sep/2013:14:37:39 +0800] "GET / HTTP/1.1" 301 5 "-" "Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; Lenovo A326 Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1 MicroMessenger/4.5.1.259" -

规划：

1、要解决问题：

当网站访问量大后，日志数据就会很多，如果全部写到一个日志文件中去，文件会变得越来越大。文件大速度就会慢下来，比如一个文件几百兆。写入日志的时候，会影响操作速度。另外，如果我想看看访问日志，一个几百兆的文件，下载下来打开也很慢。使用第三方免费的日志分析工具-日志宝，可以上传nginx、apache、iis的日志文件，它们帮助分析网站安全方面。毕竟专攻，更加专业。日志宝对上传的文件也是做了大小限制的，不超过50m。

2、nignx没有自动分开文件存储日志的机制。由于nginx它不会帮你自动分文件保存。所以，需要自己编写脚本来实现。

shell脚本文件nginx_log_division.sh内容如下：

# /bin/bash

logs_path="/data/wwwlogs/"

#以前的日志文件。

log_name="xxx.log"

pid_path="/usr/local/nginx/logs/nginx.pid"

mv ${logs_path}${log_name} ${logs_path}${log_name}_$(date --date="LAST WEEK" +"%Y-%m-d").log

kill -USR1 `cat ${pid_path}`

上面shell脚本的原理是：先把以前的日志文件移动重命名成一个，目的是就是备份。

按照上个周一的本日来命名，运行脚本的时候时间点是”2013-09-16”，那么生成文件名称是”xxx.log_ 20130909.log”。

在没有执行kill -USR1 `cat ${pid_path}`之前，即便已经对文件执行了mv命令而改变了文件名称，nginx还是会向新命名的文件” xxx.log_ 20130909”照常写入日志数据的。原因在于：linux系统中，内核是根据文件描述符来找文件的。

----------------对linux文件描述符的理解

文件描述符是linux内核为每个打开的文件命名的一个整数标识。

linux内核为每一个进程生成(或者说维护)一个”文件描述符表”，这个文件描述符表记录的是“此进程所打开的文件(进行标识)”。

在这里的环境中，nginx就是一个运行中的进程，这个进程早就打开了一个日志文件，在文件描述符表是记录了文件的。

即便日志文件的路径改变了，但是还是能够找到(根据文件描述符表可以定位)。

----------------------------------------------

当执行命令“kill -USR1 `cat ${pid_path}`”的时候，nginx.pid文件中保存的其实就是一个数字(自己可以打开看一下，我这里是894)，nginx 将其主进程的 pid (进程号)写入到了nginx.pid 文件中，所以可以通过cat命令直接拿到其主进程号,直接操作指定的进程号。

kill -USR1 `cat ${pid_path}` 就等同于

kill –USR1 894 #指定发信号(USR1)信号给这个进程编号。

在linux系统中，linux是通过信号与”正在运行的进程”进行通信的。linux系统中，也很多预定义好的信号，像SIGHUP。USR1是用户自定义信号。可以理解为：进程自己定义接到这个信号该干嘛(也就是进程编写者自己确定收到这个信号干嘛还是什么都不做都行，完全交给开发人员自己决定)。而在nginx中，它自己编写了代码处理当我接到USR1信号的时候，让nginx重新打开日志文件。具体原理如下：

1、nginx 的主进程收到USR1信号，会重新打开日志文件(以nginx配置文件中的日志名称命名,就是配置文件中access_log项所设置的值，如果文件不存在，会自动创建一个新的文件xxx.log)。

2、然后把日志文件的拥有者改为“工作进程(worker进程)”，目的是让worker进程就具备了对日志文件的读写权限（master和worker通常以不同用户运行，所以需要改变拥有者）。

3、nginx主进程会关闭重名的日志文件(也就是刚才使用mv命令重命名成xxx.log_ 20130909.log的文件)，并通知工作进程使用新打开的日志文件(刚才主进程打开的文件xxx.log)。具体实现上更细化点就是，主进程把USR1信号发给worker，worker接到这个信号后，会重新打开日志文件(也就是配置文件中约定的xxx.log)

===================================定时执行脚本

设置上面的shell脚本文件加入到定时任务中去。crontab是linux下面一个定时任务进程。开机此进程会启动，它每隔一定时间会去自己的列表中看是否有需要执行的任务。

crontab -e

* 04 * * 1 /data/wwwlogs/nginx_log_division.sh

会打开一个文件，加入上面的代码

格式为 "分时日月星期几要执行的shell文件路径"。用*可以理解成“每”,每分钟，每个小时，每个月等等。

我设置是在周一凌晨4点运行nginx_log_division.sh脚本，脚本的内容就是重新生成一个新的日志文件。

附：设置nginx日志的配置方法

log_format site '$remote_addr - $remote_user [$time_local] "$request" '

'$status $body_bytes_sent "$http_referer" '

'"$http_user_agent" $http_x_forwarded_for';

access_log /data/wwwlogs/xxxx.com.log site

#第二个参数表示使用那个日志格式，为每一个日志格式标识了一个名称，site对应的就是log_format中的名称

以上涉及到crontab定时任务管理器的使用知识。

还有没完全理解透彻和错误的地方。希望以后更新。

posted @ 2013-09-17 00:49 王滔阅读(34507) 评论(12) 收藏举报

刷新页面返回顶部

nginx自动切割访问日志

公告