cynorr

Learn what I touched.

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

1.词性表组成


以下词性表是概括信息,分数和变量是举例,便于理解。实际表变量和分数非常详细,并且格式统一。

一个变量

以翻译”苏州大学为例“
苏州

苏州 ||| Soochow 0.001
苏州 X ||| Soochow X        0.1354
苏州 X ||| Suzhou  X          0.1256
苏州   ||| Soochow city     0.000012

大学:

大学 ||| University   0.12523
X 大学 ||| X University 0.2534
X 大学 ||| X College     0.121
大学 X ||| College X     0.35145
  • 其中 X 为变量,例如苏州X,X为大学、博物馆时,phrase即为苏州大学,苏州博物馆。
  • 后面的数字是分数,之后两个词组合时分数累加。

两个变量

例:苏州大学是211工程

苏州 X1 X2   |||  Soochow X1 X2   0.35454
X1 大学 X2   ||| X1 University X2 0.000354
X1 X2 是   ||| X1 X2 is    0.2535
X1 X2 是   ||| X1 X2 are   0.05634 
X1 X2 是   ||| X1 X2 was   0.5464
  • 两个变量拼接时,不允许两个变量相连,因为会产生歧义。例如:X1 X2 是 实际并不存在。

2.匹配方法


分数累加

两个词拼成一个词时,后面附带的分数是累加的。作为这个被拼接成的词的分数。

调序

表中有自动的调序,例如:

书上有 X ||| There is X in the tree    0.564
X1 是 X2 之一 ||| X1 is one of X2   0.1534

3.chart表


--  phrase-based最核心的地方就在这里。phrase具有语法约束和相应的分数,按序组合的方式拼接,上一层基于下一层,不断迭代,最终形成一个完整的翻译语句。

 只含一个变量的拼接:
以第2层为例:坐标(2-1)的cell,是由(1-1)和(1-2)拼接成,三种拼接方式:
1.直接在词表中找【苏州大学 X】
2.【苏州 X】 + 【大学】
3.【苏州】 + 【X 大学】
如果用后面两种拼接,则得到的新的cell的分数是由下面一层的分数相加得出来的。

 含两个变量的拼接:
以第3层为例:
1.直接在词性表里面找到【苏州大学在 X1】
2.坐标(3-1)的cell,可以(1-2)为基础双变量拼接:
【苏州】+【X1 大学 X2】+【在】
3.基于下一层拼接
 (1-1 )+(2-2)
 (2-1)+(1-3)

chart的含义

例如:苏州大学在江苏省排名靠前

  • 每个格子称作”cell“,cell里面的的phrase称作span,span具有长度。

  • y坐标的值代表每个span的长度。

  • 每个span都是由所在列的初始元素开始。

  • 列下面对应的是词性表及分数。

二维组装:Square prny

途中纵坐标和横坐标都各代表一个词的词性表(附有分数),内容部分数两个词拼接合成的分数。例如(2-187),2代表第2大,187是分数。所以这是第二个要填的格子,按照排名依次扩展。这是一个二维平面图,当一个词含有连个变量是,这将是三维坐标图,即cube,从(0,0,0)坐标按照排名逐渐像外扩。

  • 如图所示,从高分到低分排名计算,只取前面的一部分。像填格子一样,从最大,第二大,第三大依次填满格子。

  • 算法优化,两列数相加,依次求最大和。

  • 逐渐填满Square,阴影部分。

三维组装

  • Cube组成
x :X1 University X2
y:Soochow X
z:X is

* 如图所示,从高分到低分排名计算,只取前面的一部分。

* 算法优化,两列数相加,依次求最大和。

* 逐渐填满Square,阴影部分。

  • 不允许两个相近的参数在一起

4.剪枝


排序算法

如果m和n过大时,时间和空间复杂度会过高,所以通过排名会淘汰后面部分,简化计算

posted on 2014-11-24 21:54  cynorr  阅读(168)  评论(0)    收藏  举报