回答邹老师的题目
文章比较长,主要是有图。三个部分。除了评论Bing的翻译,还顺便比较了下Google的。
1,Bug的分类
先把Bug分成两类。
高级Bug:
——多义词的翻译
这应该是机器翻译的核心问题,出Bug可以理解。主要有两种,分别举例如下:

“delivery”表示“投递”,结果被翻成了另一个意思“分娩”;“editor”表示“编辑”,结果翻成了“编辑器”。(看来训练集里的计算机词汇足够多啊J)这类错误没有明显的上下文提示,但是有大环境——一个新闻商业网站,是不大可能专门提到分娩问题的。
原因应该是翻译时候忽视了词汇出现的位置,也没有检查背后的链接。(这个关于链接的想法会再次出现)

这里面主要是对“学分”(credit)、“学位”(degree)、“推理”(reason)的翻译。这是有明显的上下文提示的。比如,有“college”、“student”等等相关词汇。还有邹老师提到的UW。
原因是忽视了词汇出现的前后语境(和网页中的位置不同)。
——语序语法问题
这个问题主要出现在动词和介词方面,虽然词汇翻译正确,意义还是错误了。举例如下:

“达芙妮科勒表示”(said D K)被翻成了“表示达芙妮科勒”。这说明语料库标注的不够好,这样的模式化错误应该可以避免。
“达成协议”(entered into agreements)和后面的“扩大供应”(to expand offering)混搭了——“进入产品”。这可能是因为有“固定搭配”和“目的状语从句”出现,扰乱了翻译机的视听。
“the two say”作为从句出现时,机器也搞错了,把前面的“new way”拿过来当动词“say”的宾语,翻成了“两个说的新方式”。真是可惜。这说明要专门对从句的语法规则修改翻译机。
——代词问题
这是也机器翻译最根本的问题。有些代词,连人也分不太清楚。人分辨代词的时候,也不完全靠的是推理。比如”Mary fears Lily because she is strange.”大家倾向于认为“she”指代的是Lily,但是如果理解成“Mary”其实也是解释的通的。“she”、“he”之类的代词还好,关键是碰到上述的“the two”和下面的“none”这样的,把“两位(教师)”翻成“两个”,把“没有任何一个(课程)”翻成“没有一人”,就错的离谱了。

其实,我想,困难之一,除了了解指代的是“谁”之外,还要进一步知道中文中的“量词”,在结果中添加。比如要知道是“两条(鱼)”而不是“两头(鱼)”才能正确地翻译代词。
——修辞问题
对于原文中的比喻、省略、口语化、情景化的词汇,翻译都不理想。
比如,文中的“改变高等教育的现状”(the face of higher education),用face比喻现状,但是大概是直译成“脸”不太合适,就索性翻成动词“面临了”。
比如,同一个图中,读者留言“awesome”是口语中的“很棒”,被翻成了“令人敬畏的”。(google更离谱,翻成“可怕的”,感情色彩完全反了)。
“分类(广告)”(classifieds)翻成了“分类”,没有把广告的意思翻出来。这个还可以忍受。

而把“Breaking news email”翻成“打破新闻邮件”就有让人匪夷所思了。“Follow us(on facebook)”翻成“跟随我们”也不容易理解。
这个bug的原因应该和机器翻译的技术和语料库来源有关。(Google采用的是统计翻译的方法,我猜测微软的也是。)传言,这些训练语料来自多语言对应的联合国文件等官方文件。(不得不说这是个聪明的主意!)机器难免沾上讲“官话”的习惯。官话中很少比喻、口语、省略和生活情景化的词语,对这些现象的翻译质量当然会下降。
低级错误
这些错误不涉及机器翻译的核心问题,并且易于被“证明”是容易解决的。
——漏译
网页翻译的不完全。

——人名的翻译
翻译一半,或者翻译的不好。还不如不翻译。
不得不说,这方面应该向google学习。(对比见文章最后的图片。)

——翻译的排版错误
这个是我的猜想。因为相似的段落,翻译质量差太多了,应该是排版出错了。
——网页显示
网页缩小后,不能左右移动。(我用的是chrome。)
2,创新的建议
按照邹老师的模型,列一下。我觉得可以先加上“who”来区分用户团体,所以写上了。
Who:按照我的观察,英语水平到研究生阶段(高级用户),看英文网页应当不需要整页翻译了。(小语种的可能有,但是情况不多。)英语水平到初中阶段,看英文网页的需求好像不会很大。(这个值得商榷,先假设是这样。)那我们翻译整页的用户群体应该是英语水平在高中到本科阶段的人。(四、六级水平?)他们可能有足够的语法知识和推理能力,但是欠缺的是词汇和固定表达(英语中的修辞和中文不同,文化氛围也不同,即使词汇全部掌握也未必完全理解)。假设主要的目的是“看看外国网站”“锻炼英文阅读”,他们的需求是——娱乐、新闻、学习。设为用户A。
另外,我们没有考虑到网页翻译之外的需求——即使通过了GRE等测试,英语水平足够好,中国人阅读英文的速度大概也没有中文的一半。因此,“高级用户”虽然嫌机器翻译质量不高,却也不能大范围、快速地“浏览”英文网页。这是他们扩大英文阅读量的瓶颈。
还有,一些企业,可能也有关注某一个行业的世界行情的需要。这些商业信息,一方面不断更新,数量巨大,另一方面因为影响力不够而不被主流的中文媒体引进。他们要么雇人专门去做统计,要么依靠机器翻译。
后两种的需求其实差不多,是关于工作的——关注、统计、摘要。设为用户B。
Need:
A:对于指定的网页,给出必要的辅助,使他理解大意,可以按照网站的提示,进行浏览。
B:对于特定的领域,帮助他们从外文的海洋中定位有效信息。
Approach & Delivery:
这个来不及细想。
我觉得,针对用户A需求制作UI可能很重要。比如当鼠标放在特定的词语(用户根据自己需要,选择标准,比如——六级词汇以外)或者句子上时候,给出可能的翻译。让用户做个选择题。(这比google做问答题要简单。)这些结果可以一方面为用户保留,作为英文学习的资料;另一方面,上传给服务器,作为语料标注的结果。
针对用户B,单纯的翻译可能不是最重要的,更重要的是信息的理解和概括。暂时没什么特别的想法。
Benefit:
用户A,可以找个学外语的拐杖,并且,语言内容是不受限制的、新的、Native的——不会局限在一本书(比如什么外语读本)。这个拐杖要顺手。
用户B:信息就是金钱。
Competitors:
Google在做相似的翻译。但是大家翻译质量半斤八两,商业模式也相似。给张图,红色是翻译比较好,黑色是比较差。
另外,美国有一些做自然语言理解的公司。服务对象是特定领域和行业。但是,中文的翻译,好像还没人做。
3,关于众包
虽然众包是个好想法(我觉得wiki和Linux是众包的例子),但是我认为在这个修复Bug的问题上可能不是最好选择。
根据我们刚才的分析,低级的bug应该可以很快修复,也不多,用不了太多人。用众包可能成本比较高(要开源,要审查质量等等),效率反而低。高级的bug是当前学术界正在研究的问题,不像是大家都可以帮上忙的——这和修复一个成品软件中的bug好像不太一样。
但是,除了程序方面,我们也许可以用众包的方式去鼓励大家报告bug、标注语料库、推广使用我们的程序。这是劳动密集型的工作。
========分割线,以下是梦话========
如果我们可以利用网站的链接来区别多义词的话该多好!这也不是不可能的。看图:
如果打开链接,就会发现“vet”是“老兵”而不是“兽医”,“shooting”是名词“枪击案”而不是形容词“开枪的”或者名词“拍照片”。但是,打开链接可能影响效率。

另外,如果众包给大家标注语料库,可以直接有统一的货币(或者等价物)在线支付给大家多好。积极性一定高。
另外,如果那么多电子书、杂志也可以将中英文版收集起来,当语料库,训练的结果也会更好吧!其实这样的话,找到中英文对应的网页也行。找到网友们自发翻译的“经济学人”“科学美国人”的结果,输入进去也行。

浙公网安备 33010602011771号