大型分布式网站架构设计与实践——在线日志分析

通过日志分析的命令和脚本，筛选日志中有价值的内容，可以分析得出系统产生问题的原因。

一、日志分析常用命令

1、查看文件的内容
cat -n

2、分页显示文件
more
enter 显示文件下一行、空格键显示下一页、f键显示下一屏、b键显示上一屏

less 支持/查找

3、显示文件尾
tail -n -f

4、显示文件头
head -n

5、内容排序
sort -n数字排序 -r逆序 -t分隔符 -k 第几列
eg：
192.168.142.56 - - [09/Mar/2016:16:42:59 +0800] "POST /jdy-servlet/users HTTP/1.1" 200 11
按照响应时间排序： sort -n -t' ' -k10 fileName

6、字符统计
wc 可以统计指定文件中的字符数、字数、行数、并输出统计结果

7、查看重复出现的行
uniq
sort file | uniq -c 排序后去重

8、字符串查找
grep
grep -c qq file -c 显示查找到的行数
grep -c 'G.*T' file 正则式

9、文件查找
find
find ./ -name '*.txt'

find . -print 递归显示所有的文件

whereis startuo.sh 定位到文件系统中可执行文件的位置

10、表达式求值
expr
加减乘除 + - \* / %
字符串操作：
索引位置： expr index 'www.baidu.com' com
字符串长度： expr length 'www.baidu.com'

11、归档文件
tar -c 生成新的包 -f 命名 -z 压缩 -x解压
-zcv -zxf

12、URL访问工具
curl
支持HTTP、HTTPS、FTP、FTPS、 Telnet等协议；
提交表单、传递cookie信息、构造refer等操作

2、查看最耗时的页面
cat access_log.txt | sort -n -r -t' ' -k10 | head -n20

3、统计404请求占比
export total_line=`wc -l access_log.txt |cut -f 1 -d ' '` && export not_found_line=`awk '{if($9=="404")print $6}' access_log.txt|wc -l` && echo $not_found_line / $total_line

二、日志分析脚本
1、sed：
流编辑器是在编辑数据之前，预先指定数据的编辑规则，然后按照规则将数据输出到标准输出；
在流编辑器的搜欧规则与输入的行匹配完毕以后，编辑器读取下一行，重复之前的规则；
处理完搜所有的数据后，流编辑器停止；
sed是面向行的，并且sed不会修改文件本身；

s 文本替换
将日志中的jdy替换成google输出
sed 's/jdy/google/' access_log.txt | head -10

-n 输出指定的行
筛选文件中指定的行输出
sed -n '2,6p' access_log.txt

d 文本删除
根据正则表达式删除文件中指定的行
sed '/jdy/d' access_log.txt

= 显示文件行号
显示文件行号
sed '=' access_log.txt

i 行首插入内容
在行首插入文本 head
sed -e 'i\head' access_log.txt | head -10

a 行末追加文本
在每一行的尾末追加ecd
sed -e 'a\end' access_log.txt | head -10

c 将匹配到的行进行替换
sed -e '/jdy/c\hello' access_log.txt | head -10

将jdy替换为google，然后打印第一行到第七行，并且输出行号
sed -n 's/jdy/google/;1,7p;1,6=' access_log.txt

2、awk
awk提供了类似于编程的开放环境，能够自定义文本处理的规则

打印文件指定的列：
awk '{print $1}' access_log.txt | head -10

筛选指定的行，并打印其中的一部分列：
awk '/jdy/{print $5, $6}' access_log.txt | head -10

查找length大于40的行，并且打印改行的第三列：
awk 'length($0)>40{print $3}' access_log.txt | head -10

输出第六行的请求方法和第十行的响应时间：
awk '{line = sprintf( "method:%s\", response:%s", $6, $10); print line}' access_log.txt |head -1

计算加总
$ cat count.txt | awk '{sum+=$1} END {print "Sum = ", sum}'
Sum = 15.9
计算平均值
$ cat count.txt | awk '{sum+=$1} END {print "Average = ", sum/NR}'

3、shell
（完善中…………）

posted @ 2016-03-17 15:43 _NullPointer 阅读(852) 评论(0) 收藏举报

刷新页面返回顶部

_NullPointer

大型分布式网站架构设计与实践——在线日志分析

公告