Scala词法文法解析器　（二）分析C++类的声明

最近一直在学习Scala语言，偶然发现其Parser模块功能强大，乃为BNF而设计。啥是BNF，读大学的时候在课本上见过，那时候只觉得这个东西太深奥。没想到所有的计算机语言都是基于BNF而定义的一套规范。词法，语法，词法，语法。。。下面看看解析C++类声明的一个简单例子吧。

class CPlusPlusParser extends StandardTokenParsers{
  //分隔符，用于repsep，和其它显示的地方
  lexical.delimiters += (":","::","<",">","(",")","&","{","}",";",",","~")
  //关键字集合,所有在解析方法中，以字符串形式出现的单词，都必须加入保留字集合，保留字大部分属于关键字
  lexical.reserved   += ("class","public","private","protected","operator","const","mutable","static")

  // 注意： 词法分析过程中，会自动删除空白，注释等不必要的内容。

  /**
  * 解析类，包含7个部分，解析的时候是按照顺序严格的匹配。
  *1. class 关键字
  *2. ident 标识符 被解析为类的名称
  *3. opt(parserBaseClasses) 可选的基类集合
  *4. {  类定义开始
  *5.opt(parserClassBody) 可选的类内容，如果没有，就是一个空类了。
  *6. } 和 ； 类定于的结束标记.
  * */
  def parserClass : Parser[Any] = {
    "class"~ident~opt(parserBaseClasses)~"{"~opt(parserClassBody)~"}"~";"
  }

  /**
   * 解析基类集合
   * 1. :  分隔符，用于分割类名称和基类集合，如果没有改分隔符则表明该类没有基类。
   * 2. repsep(parserOneBaseClass,",") 解析一个或者多个基类，C++支持多继承，每个继承以逗号(,)分割
   */
  def parserBaseClasses : Parser[Any] ={
    ":"~repsep(parserOneBaseClass,",")
  }

  /**
   * 解析单一继承
   *1.opt("public"|"private"|"protected") 没有包含范围修饰符时，C++默认为private继承
   *2.parserType 基类名称
   */
  def parserOneBaseClass : Parser[Any] ={
    opt("public"|"private"|"protected")~parserType
  }

  /**
   * 解析类型
   * 1.rep(parserTypeNamespace) 可选的名称前缀，例如std::string,std::tr1::shared_ptr,包含了名称前缀
   * 2.ident 类型名称
   * 4.opt("<"~repsep(parserType,",")~">") 模板类型，及其嵌套解析，在此属于递归解析
   *
   * 次类型没有考虑解析“unsigned” 数据类型
   */
  def parserType : Parser[Any] ={
    rep(parserTypeNamespace)~ident~opt("<"~repsep(parserType,",")~">")
  }
  /*
  * 解析单一名称空间*/
  def parserTypeNamespace : Parser[Any] ={
    ident~"::"
  }
  /*
  * 解析类的内容，类的成员，如果没有public，private，protected等修饰符，则为默认private
  * 1.rep(parserFun|parserField) 解析可能包含的默认的private范围的方法和字段
  * 2.rep(parserSection) 后续可能包含其他public，private，protected修饰的字段。
  *
  * 例如一个类可以包含public：private： 等多个不同的范围修饰段
  * */
  def parserClassBody : Parser[Any] = {
    rep(parserFun|parserField)~rep(parserSection)
  }

  /**
   * 解析每一个具体的范围访问段。可能是public、private或者protected，并且包含一些列的方法和字段
   */
  def parserSection : Parser[Any] = {
    ("public"|"private"|"protected")~":" ~rep(parserFun|parserField)
  }
  /*
  * 解析方法的声明，在此没有解析方法的定义，比较复杂。
  * 1. opt(opt("virtual")~(parserReturnValue|"~")) 方法的返回值，之所以使用opt，是因为构造函数没有返回值，~用于析构函数的解析
  * 2. ident  方法名称，在此没有解析操作符重载方法，如果需要，需要另外单独定义，
  * 3. "("~repsep(parserFunParam,",")~")" 解析参数列表，不支持 （void) 模式的参数，请使用()替代（void)
  * 4. opt("const") 可选的const修饰符
  * 5.; 函数声明结束
  *
  * 没有包含静态方法（static），很容易根据此模板写出来
  * */
  def parserFun : Parser[Any] ={
    opt(opt("virtual")~(parserReturnValue|"~"))~ident~"("~repsep(parserFunParam,",")~")"~opt("const")~";"
  }

  /**
   * 解析返回值
   * 1.包含可选的const修饰符
   * 2.返回值的具体类型
   * 3.包含可选的引用
   */
  def parserReturnValue : Parser[Any] ={
    opt("const")~parserType~opt("&")
  }

  /**
   * 解析一个函数参数，数据类型与 parserReturnValue，不过多了参数名称和可选的默认值
   */
  def parserFunParam : Parser[Any] = {
    opt("const")~parserType~opt("&")~ident~opt("="~(numericLit|stringLit|ident)) // 默认参数支持false，true，数字，字符串
  }
  /*
  * 解析字段定义
  * 1.可选的字段修饰符
  * 2.字段数据类型，不支持unsigned，相对容易。在此不给出
  * 3.ident 字段名称
  * 4.; 字段定义结束*/
  def parserField : Parser[Any] ={
    opt("const"|"mutable"|"static") ~parserType~ident~";"
  }
  def parserAll[T]( p : Parser[T], input :String) = {
    phrase(p)( new lexical.Scanner(input))
  }

}

object CPlusPlusParser {
  def main( args : Array[String]) {

    val c = new CPlusPlusParser

    val r = c.parserAll(c.parserClass,
      """
        |class MyClass : public A, public N {
        |int a;
        |void SetA( int v );
        |int GetA()const;
        |public :
        |int a;
        |void SetA( int v );
        |int GetA()const;
        |};
      """.stripMargin)

    println(r)

    /* 测试输出
    [11.11] parsed: ((((((class~MyClass)~Some((:~List((Some(public)~((List()~A)~None)), (Some(public)~((List()~N)~None))))))~{)~Some((List((((None~((List()~int)~None))~a)~;), ((((((Some((None~((None~((List()~void)~None))~None)))~SetA)~()~List(((((None~((List()~int)~None))~None)~v)~None)))~))~None)~;), ((((((Some((None~((None~((List()~int)~None))~None)))~GetA)~()~List())~))~Some(const))~;))~List(((public~:)~List((((None~((List()~int)~None))~a)~;), ((((((Some((None~((None~((List()~void)~None))~None)))~SetA)~()~List(((((None~((List()~int)~None))~None)~v)~None)))~))~None)~;), ((((((Some((None~((None~((List()~int)~None))~None)))~GetA)~()~List())~))~Some(const))~;)))))))~})~;)

Process finished with exit code 0
     */
  }
}

后续目标是分析头文件，提前所有类和枚举的定义。自动转换为protobuf接口，并且自动生成protobuf消息和类之间进行编解码的接口。还可以以类为蓝本生成其它语言的对象及其与protobuf消息之间的编解码。这样以后在涉及到客户机和服务器通信的时候，大部分的业务数据对象都只要写一次，其它自动生成，并小改动。

想要写个C++类的词法文法分析由来已久。一直找不到好的方法，之前尝试使用正则表达式来解析，但是有点受限，正则表达式过于复杂，而且一般是按行分析的。之所以要分析提取C++类的信息

参考:

Scala词法文法解析器　（一）解析SparkSQL的BNF文法

转自：Scala 文法词法分析---分析C++类的声明

posted @ 2019-05-02 23:57 BarryW 阅读(441) 评论(0) 收藏举报

刷新页面返回顶部

BarryWang

Scala词法文法解析器　（二）分析C++类的声明

Scala词法文法解析器　（一）解析SparkSQL的BNF文法

公告

BarryWang

Scala词法文法解析器 （二）分析C++类的声明

Scala词法文法解析器 （一）解析SparkSQL的BNF文法

公告

Scala词法文法解析器　（二）分析C++类的声明

Scala词法文法解析器　（一）解析SparkSQL的BNF文法