flex and bison学习笔记01

工作需要,学习一下Flex and bison,以前在编译原理的课上听老师说过他们的前辈,lex and yacc。Flex and bison就是lex and yacc的升级版。

参考书:flex 与 bison

1、Flex and bison简介

Flex和bison是两个用来生成程序的工具,它们生成的程序分别叫做词法分析器和语法分析器,工作中主要是用来生成SQL语句的词法和语法分析器。

2、词法分析器和语法分析器是如何工作的?

任何一种语言,都是有一定的语法规则的,不管是人类的语言,还是计算机语言(如C/C++编程语言等),因此,可以利用这些已知的规则,来对相应的语言进行分析。举个例子,汉语中的一个句子,基本的格式是:主(名词/代词)+谓(动词)+宾(名词/代词),当你在说一句话的时候,我们把你说的话(输入)先拆分成一个个有意义的字或者词组,然后对照该语法,看词性及组合,是否符合既定的语法规范,如果符合,则可以知道你说的话是符合规范的。比如,你说“我吃饭”,输入会被依次拆成“我”“吃”“饭”,它们分别是代词、动词、名词,因此符合上面的语法规则,因此这句话是OK的。而如果说“我饭吃”,则会发现与上面的规范不符合(也没有其他符合的规范),因此这句话语法上市有问题的。Flex和bison生成的词法和语法分析器就是干这两件事的,Flex生成的词法分析器将输入拆分成一个个记号(token),bison生成的语法分析器根据已有的规则,分析这些token的组合,是否符合语法规范。

3、Flex源文件格式

 4 Flex是用来生成词法分析器的
 5 Flex源文件扩展名.l
 6 分为三个段:定义段、规则段、用户子程序段
 7 /* 定义段 */
 8 %{
 9 ...
10 %}
11 ...
12 
13 %%
14     /* 规则段 */
15 ...
16 %%
17 
18     /* 用户子程序段 */
19 ...
20 
21 三个段用%%进行分隔
22 1.定义段
23     这一部分一般是一些声明及选项设置等。C语言的注释、头文件包含等一般就放在%{%}之间,这一部分的内容会被直接复制到输出文件的开头部分.
24 2.规则段
25 
26     规则段为一系列匹配模式和动作,模式一般使用正则表达式书写,动作部分为C代码:
27     模式1 {动作1 (C代码)}
28     在输入和模式1匹配的时候,执行动作部分的代码。
29 3.用户子程序段
30     
31     这里为C代码,会被原样复制到输出文件中,一般这里定义一些辅助函数等,如动作代码中使用到的辅助函数。
32     
33     词法分析器所做的,就是在输入中寻找字符的模式(pattern)。在词法分析器中,我们要给定我们需要识别的模式,因此需要使用一种方式来描述模式,这就是常用的正则表达式。学习正则表达式

4、Flex小例子

1.编写以下Flex源文件(01.l,注意后缀名是l字母)

%{
    #include <stdio.h>
%}

%%

[a-zA-Z]+ {printf("get word:%s\n", yytext);}
[0-9]+ {printf("get number:%d\n", yytext);}
\n {printf("New line\n");}
. {}

%%

代码中定义了四条规则,前面的部分就是模式,处于一行的开始位置,后面部分是动作,也就是,输入中匹配到了这个模式的时候,对应进行什么动作(就像机器人接受到了什么样的指令,然后会执行相应的动作一样)

第一个模式,匹配连续一到多个字符串,匹配之后就将其打印出来。yytext:在输入中匹配到该模式的时候,匹配的部分就存储在这个yytext里面了。这里的动作是把它作为字符串直接输出。

第二个模式,匹配连续一个或者多个数字,匹配到之后就将其输出。

第三个模式,匹配一个换行符,匹配到之后就打印一个新行的信息。

第四个模式,匹配出了\n之外的字符,没有任何动作。

总体来说,这个规则就是匹配到英语单词,则将其输出;匹配到连续数字,则将其输出;匹配到换行符,打印一条信息;匹配到任何其他字符直接忽略({}也就是动作为空,就是什么都不做了。)

源文件写好了之后就是编译、生成可执行程序,然后测试是否按我们所想的那样了。

找一个安装有Flex、bison的机器试一下吧,如果没有自行安装

centos下使用下面命令安装,

yum install flex

yum nistall bison

生成C代码:felx ./01.l

编译生成的C代码:gcc -o scanner ./lex.yy.c -lfl

然后运行scanner程序即可。

 

第二个小例子的代码:

 1 %{
 2     int chars = 0;
 3     int words = 0;
 4     int lines = 0;
 5 %}
 6 
 7 %%
 8 
 9 [a-zA-Z]+ {words++; chars += strlen(yytext);}
10 \n {chars++; lines++;}
11 . {chars++;}
12 
13 %%
14 
15 main(int argc, char **argv)
16 {
17     yylex();
18     printf("lines:%8d\nwords:%8d\nchars:%8d\n", lines, words, chars);
19 }

这个例子的规则是,统计输入的单词数,字符数以及行数。

 

posted @ 2014-08-29 11:09  冷冰若水  阅读(5830)  评论(0编辑  收藏  举报