NashZhou

广告算法工程师,目前致力于关键词广告的效果自动优化

中文文本信息处理的原理与应用读书笔记1

概论
自然语言理解的发展历史主要分为三个阶段
  • 以关键词匹配为主流的早期历史
使用模式匹配技术,一个输入模式对应着一个或多个输出模式。
例如模式
I remember * -> why do you remember *
优点是对输入句子的限制较小,但分析往往会不精准,没有真正考虑语义
让我想起了小黄鸡
  • 以句法-语义分析为主流的中期历史
          在限定情景中的自然语言处理,比如书中给出的语音控制机器手臂操作玩具积木
          我对这块没有太多想法,最讨厌语义分析了。
  • 以周向实用化和工程化为特征的近期历史
未来的发展趋势主要如下:
1.基于规则和基于统计的研究方法的结合
这个好理解,人工经验和数据分析的结合,不单单是自然语言处理,很多方向的发展都有这个趋势
2.自然语言理解在语义网中广泛应用
3.与生物信息学的结合
2和3表示不懂,略过
 
自动分词
中文分词是开发文本挖掘的核心技术,以支持对文本信息进行管理、分析、
检索等各种应用。其主要难点是分词歧义以及未登录词的召回问题。
 
主要的切词方法如下:
基于多字符串匹配的分词方法
  • 根据匹配方向的不同可以分为 正向匹配与逆向匹配
因为较多的分词歧义都是过段结束匹配造成的,所以逆向匹配准确率往往比正向高。
  • 根据匹配长度的优先级不同可以分为 最长匹配和最短匹配
同理,最长匹配的准确率比最短匹配高
  • 双向最大匹配法
据说通过双向最大匹配可以进一步提升准确率,可能还是因为上面的原因
  • 最短路径法
这种方法将分词问题归结为图论中的最短路径问题,即一个词对应一条有向边,
词的一个序列对应一条有向路径。对给定的待分词的汉字串S,分词问题就是要找到一条最短的有向路径
使得这条路径上的边所对应的词的序列为S。这样就可用图论中的有关算法来求解。
路径最短意味着切分后词的数量最少。这种方法很有新意,但我不太理解为什么分的越少越好。
书上说符合汉语自身的规律。

基于预料统计的分词方法
  • 可以对语料中相邻共现的各个字的组合的频率进行统计,计算他们的互现信息。计算两个汉字X,Y相邻的共现概率,当大于某一阈值时,便可认为构成一个词。这种方法其实就相当于从语料库里构建词库。
  • 也可以根据语料计算各种分词结果的概率,取最大的
 
参考《中文文本信息处理的原理与应用》,苗夺谦

posted on 2013-09-24 17:25  NashZhou  阅读(923)  评论(1)    收藏  举报

导航