公告

Hiero理论概要

1.词性表组成

以下词性表是概括信息，分数和变量是举例，便于理解。实际表变量和分数非常详细，并且格式统一。

一个变量

以翻译”苏州大学为例“
苏州：

苏州 ||| Soochow 0.001
苏州 X ||| Soochow X        0.1354
苏州 X ||| Suzhou  X          0.1256
苏州   ||| Soochow city     0.000012

大学:

大学 ||| University   0.12523
X 大学 ||| X University 0.2534
X 大学 ||| X College     0.121
大学 X ||| College X     0.35145

其中 X 为变量，例如苏州X，X为大学、博物馆时，phrase即为苏州大学，苏州博物馆。
后面的数字是分数，之后两个词组合时分数累加。

两个变量

例：苏州大学是211工程

苏州 X1 X2   |||  Soochow X1 X2   0.35454
X1 大学 X2   ||| X1 University X2 0.000354
X1 X2 是   ||| X1 X2 is    0.2535
X1 X2 是   ||| X1 X2 are   0.05634 
X1 X2 是   ||| X1 X2 was   0.5464

两个变量拼接时，不允许两个变量相连，因为会产生歧义。例如：X1 X2 是 实际并不存在。

2.匹配方法

分数累加

两个词拼成一个词时，后面附带的分数是累加的。作为这个被拼接成的词的分数。

调序

表中有自动的调序，例如：

书上有 X ||| There is X in the tree    0.564
X1 是 X2 之一 ||| X1 is one of X2   0.1534

3.chart表

-- 　phrase-based最核心的地方就在这里。phrase具有语法约束和相应的分数，按序组合的方式拼接，上一层基于下一层，不断迭代，最终形成一个完整的翻译语句。

　只含一个变量的拼接：
以第２层为例：坐标（２－１）的cell，是由（１－１）和（１－２）拼接成，三种拼接方式：
1.直接在词表中找【苏州大学　Ｘ】
2.【苏州　Ｘ】　＋　【大学】
3.【苏州】　＋　【Ｘ　大学】
如果用后面两种拼接，则得到的新的cell的分数是由下面一层的分数相加得出来的。

　含两个变量的拼接：
以第３层为例：
1.直接在词性表里面找到【苏州大学在 X1】
2.坐标（３－１）的cell，可以（１－２）为基础双变量拼接：
【苏州】＋【X1 大学 X2】＋【在】
3.基于下一层拼接
　（１－１）＋（２－２）
　（２－１）＋（１－３）

chart的含义

例如：苏州大学在江苏省排名靠前

每个格子称作”cell“，cell里面的的phrase称作span，span具有长度。
y坐标的值代表每个span的长度。
每个span都是由所在列的初始元素开始。
列下面对应的是词性表及分数。

二维组装：Square prny

途中纵坐标和横坐标都各代表一个词的词性表（附有分数），内容部分数两个词拼接合成的分数。例如（２－１８７），２代表第２大，１８７是分数。所以这是第二个要填的格子，按照排名依次扩展。这是一个二维平面图，当一个词含有连个变量是，这将是三维坐标图，即ｃｕｂｅ，从（０，０，０）坐标按照排名逐渐像外扩。

如图所示，从高分到低分排名计算，只取前面的一部分。像填格子一样，从最大，第二大，第三大依次填满格子。
算法优化，两列数相加，依次求最大和。
逐渐填满Ｓｑｕａｒｅ，阴影部分。

三维组装

Cube组成

x :X1 University X2
y:Soochow X
z:X is

*　如图所示，从高分到低分排名计算，只取前面的一部分。

*　算法优化，两列数相加，依次求最大和。

＊　逐渐填满Ｓｑｕａｒｅ，阴影部分。

不允许两个相近的参数在一起

4.剪枝

排序算法

如果ｍ和ｎ过大时，时间和空间复杂度会过高，所以通过排名会淘汰后面部分，简化计算

posted on 2014-11-24 21:54 cynorr 阅读(170) 评论(0) 收藏举报

刷新页面返回顶部