1.词性表组成
以下词性表是概括信息,分数和变量是举例,便于理解。实际表变量和分数非常详细,并且格式统一。
一个变量
以翻译”苏州大学为例“
苏州:
苏州 ||| Soochow 0.001
苏州 X ||| Soochow X        0.1354
苏州 X ||| Suzhou  X          0.1256
苏州   ||| Soochow city     0.000012
大学:
大学 ||| University   0.12523
X 大学 ||| X University 0.2534
X 大学 ||| X College     0.121
大学 X ||| College X     0.35145
- 其中 X 为变量,例如苏州X,X为大学、博物馆时,phrase即为苏州大学,苏州博物馆。
 - 后面的数字是分数,之后两个词组合时分数累加。
 
两个变量
例:苏州大学是211工程
苏州 X1 X2   |||  Soochow X1 X2   0.35454
X1 大学 X2   ||| X1 University X2 0.000354
X1 X2 是   ||| X1 X2 is    0.2535
X1 X2 是   ||| X1 X2 are   0.05634 
X1 X2 是   ||| X1 X2 was   0.5464
- 两个变量拼接时,不允许两个变量相连,因为会产生歧义。例如:X1 X2 是 实际并不存在。
 
2.匹配方法
分数累加
两个词拼成一个词时,后面附带的分数是累加的。作为这个被拼接成的词的分数。
调序
表中有自动的调序,例如:
书上有 X ||| There is X in the tree    0.564
X1 是 X2 之一 ||| X1 is one of X2   0.1534
3.chart表
--  phrase-based最核心的地方就在这里。phrase具有语法约束和相应的分数,按序组合的方式拼接,上一层基于下一层,不断迭代,最终形成一个完整的翻译语句。

只含一个变量的拼接:
以第2层为例:坐标(2-1)的cell,是由(1-1)和(1-2)拼接成,三种拼接方式:
1.直接在词表中找【苏州大学 X】
2.【苏州 X】 + 【大学】
3.【苏州】 + 【X 大学】
如果用后面两种拼接,则得到的新的cell的分数是由下面一层的分数相加得出来的。
含两个变量的拼接:
以第3层为例:
1.直接在词性表里面找到【苏州大学在 X1】
2.坐标(3-1)的cell,可以(1-2)为基础双变量拼接:
【苏州】+【X1 大学 X2】+【在】
3.基于下一层拼接
(1-1 )+(2-2)
(2-1)+(1-3)
chart的含义
例如:苏州大学在江苏省排名靠前
- 
每个格子称作”cell“,cell里面的的phrase称作span,span具有长度。
 - 
y坐标的值代表每个span的长度。
 - 
每个span都是由所在列的初始元素开始。
 - 
列下面对应的是词性表及分数。
 
二维组装:Square prny

途中纵坐标和横坐标都各代表一个词的词性表(附有分数),内容部分数两个词拼接合成的分数。例如(2-187),2代表第2大,187是分数。所以这是第二个要填的格子,按照排名依次扩展。这是一个二维平面图,当一个词含有连个变量是,这将是三维坐标图,即cube,从(0,0,0)坐标按照排名逐渐像外扩。
- 
如图所示,从高分到低分排名计算,只取前面的一部分。像填格子一样,从最大,第二大,第三大依次填满格子。
 - 
算法优化,两列数相加,依次求最大和。
 - 
逐渐填满Square,阴影部分。
 
三维组装
- Cube组成
 
x :X1 University X2
y:Soochow X
z:X is
* 如图所示,从高分到低分排名计算,只取前面的一部分。
* 算法优化,两列数相加,依次求最大和。
* 逐渐填满Square,阴影部分。
- 不允许两个相近的参数在一起
 
4.剪枝
排序算法
如果m和n过大时,时间和空间复杂度会过高,所以通过排名会淘汰后面部分,简化计算
                    
                
                
            
        
浙公网安备 33010602011771号