所以燃

2014年5月30日

自然语言理解——NLP中的形式语言自动机

摘要: 1.形式语言:是用来精确地描述语言(包括人工语言和自然语言)及其结构的手段。形式语言学 也称代数语言学。 2.自动机:识别器是有穷地表示无穷语言的另一种方法。每一个语言的句子都能被一定的识别器所接受。 *有限状态转换机(FST) 除了前面提到的单词拼写检查、词法分析、词性标注... 阅读全文

posted @ 2014-05-30 15:49 Jizhiyuan 阅读(1909) 评论(0) 推荐(0) 编辑

自然语言理解——数学基础

摘要: 一、信息论基础: 熵: 联合熵:实际上就是描述一对随机变量平均所需要的信息量。 条件熵:给定随机变量 X 的情况下,随机变量 Y 的条件熵定义为: 熵率: 相对熵(KL距离):两个概率分布 p(x) 和 q(x) 的相对熵定义为: 交叉熵:如果一个随机变量 X ~ p(x),q(x)为用于近似 p(x)的概率分布,那么,随机变量 X 和模型 q 之间的交叉熵定义为: 由此,... 阅读全文

posted @ 2014-05-30 14:30 Jizhiyuan 阅读(1023) 评论(0) 推荐(1) 编辑

导航