中文文本信息处理的原理与应用读书笔记1

概论

自然语言理解的发展历史主要分为三个阶段

以关键词匹配为主流的早期历史

使用模式匹配技术，一个输入模式对应着一个或多个输出模式。

例如模式

I remember * -> why do you remember *

优点是对输入句子的限制较小，但分析往往会不精准，没有真正考虑语义

让我想起了小黄鸡

以句法-语义分析为主流的中期历史

在限定情景中的自然语言处理，比如书中给出的语音控制机器手臂操作玩具积木

我对这块没有太多想法，最讨厌语义分析了。

以周向实用化和工程化为特征的近期历史

未来的发展趋势主要如下：

1.基于规则和基于统计的研究方法的结合

这个好理解，人工经验和数据分析的结合，不单单是自然语言处理，很多方向的发展都有这个趋势

2.自然语言理解在语义网中广泛应用

3.与生物信息学的结合

2和3表示不懂，略过

自动分词

中文分词是开发文本挖掘的核心技术，以支持对文本信息进行管理、分析、

检索等各种应用。其主要难点是分词歧义以及未登录词的召回问题。

主要的切词方法如下：

基于多字符串匹配的分词方法

根据匹配方向的不同可以分为正向匹配与逆向匹配

因为较多的分词歧义都是过段结束匹配造成的，所以逆向匹配准确率往往比正向高。

根据匹配长度的优先级不同可以分为最长匹配和最短匹配

同理，最长匹配的准确率比最短匹配高

双向最大匹配法

据说通过双向最大匹配可以进一步提升准确率，可能还是因为上面的原因

最短路径法

这种方法将分词问题归结为图论中的最短路径问题，即一个词对应一条有向边，

词的一个序列对应一条有向路径。对给定的待分词的汉字串S，分词问题就是要找到一条最短的有向路径

使得这条路径上的边所对应的词的序列为S。这样就可用图论中的有关算法来求解。

路径最短意味着切分后词的数量最少。这种方法很有新意，但我不太理解为什么分的越少越好。

书上说符合汉语自身的规律。

基于预料统计的分词方法

可以对语料中相邻共现的各个字的组合的频率进行统计，计算他们的互现信息。计算两个汉字X,Y相邻的共现概率，当大于某一阈值时，便可认为构成一个词。这种方法其实就相当于从语料库里构建词库。
也可以根据语料计算各种分词结果的概率，取最大的

参考《中文文本信息处理的原理与应用》，苗夺谦

posted on 2013-09-24 17:25 NashZhou 阅读(923) 评论(1) 收藏举报

刷新页面返回顶部

NashZhou

中文文本信息处理的原理与应用读书笔记1

导航

公告