信息处理用现代汉语分词规范

中华人民共和国国家标准(GB13715)
    1.主题内容与适用范围
    1.1主题内容
    本规范规定了现代汉语的分词原则,以满足信息处理的需要。它对汉语信息处理的规范
化,对各种汉语信息处理系统之间的兼容性有重要的作用。
    1.2适用范围
    本规范适用于汉语信息处理各领域,其它行业和有关学科可以参考使用。汉语信息处理
各领域可以根据其专门需求,进一步补充和细化本规范的规定。
    2.引用标准
    汉语信息处理词汇GB 12200
    3术语
    以卜术语引自GB 12200。
    3.1汉语信息处理
    用计算机对汉语的音、形、义等信息进行的处理。
    3.2词
    最小的能独立运用的语言单位。
    3.3词组
    由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言单位。
    3.4分词单位
    汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限
定的词或词组。
    3.5汉语分词
    从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。
    4.概述
    本规范以信息处理用为目的,根据现代汉语的特点及规律,规定现代汉语的分词原则。
    本规范用下划线“___”作为分词单位标记。
    4.1空格或标点符号是计算机中分词单位的分隔标记。作为分隔标记的标点符号有:句
号、逗号、顿号、分号、冒号、问号、叹号、引号、括号、破折号、省略号、书名号、间隔
号、连接号及符号“/”等。
    4.2二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位。例
如:
    发展   可爱  红旗
    对不起  自行车   青霉素

    4.3四字成语一律为分词单位。例如:
    胸有成竹 欣欣向荣
    四字词或结合紧密、使用稳定的四字词组,一律为分词单位。例如:
   社会主义  春夏秋冬  由此可见

    4.4五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分。例
如:
   时间     生命 

    失败   是  成功  之  母

   人   心   齐 , 泰山  移

    5.1.1.7各类专业的基本术语为分词单位。例如:
          加速度     中央处理器
    5.1.1.8方位词应予单独切分。例如:
    桌子 上   长江  以北
    5.1.1.9除“人们”之外,仅表示前一个名词性分词单位复数的“们”单独切分。例如:
  朋友 们   学生  们

  但是“哥儿们 爷儿们”等是分词单位
    5.1.1.1时间名词或词组的分词规则如下:
  a.一年的十二个月份以及每周的七天,一律为分词单位。例如:
  五月  元月  3月  星期日  礼拜三

    b.“年、日、时、分、秒”分别为分词单位。例如:
  1988  年 15日  11 时 42 分 8  秒
    c.“前、后、上、下、大前、大后”等直接与时间名词或量词组合时,它们为一个分
词单位。例如:
  前天  后年  上星期  下月  大前天  大后年

    d.“初”加十以内的数字一律为分词单位。例如:
  初一   初二

    5.1.2专有名词
    5.1.2.1人名、称谓等处理如下:
    a.汉族人名的姓和名分别单独切分。例如:
       张  胜利  欧阳 海
    b.其他国家、其他民族的人名按其习惯形式切分。例如:
        卡尔.马克思   牛顿   小林多喜二   才旦卓玛

    c.带职务、职称的称呼一律切分。例如;
    张  教授    王 部长 李师傅

   d.简称、尊称等为分词单位。例如:
       老张  小李   郭老   陈总

    e.带排行的亲属称谓一律切分。例如:
      三叔  大 女儿

  5.1.2.2民族名、地名中的“族、省、市、州、县、乡、区、江、河、山”等应单独切
分。但包括“族、省、市、州、县、乡、区、江、河、山”等只有两个字的民族名、地名,
则不予切分。例如:
     专名部分不能单独存在而保持原有意义的地名,不予切分.

posted on 2006-03-30 13:49  田野的羽毛  阅读(1152)  评论(0编辑  收藏  举报