首先说一下找到的部分BUG:(其中红色部分为误译,蓝色部分为改正)
1、 人名、专有名词翻译(是不是应该翻译),如:新闻中记者名字 “By Katherine Long”,被误译成了“由罗兆贞长”,实际上名字保留英语原文即可。
2、 中英文语序的不同(句子结构、语序问题),如:"Coursera already provides free courses to anyone wanting to participate,",其中文被翻译为了:Coursera 已经向任何人想要参与提供了免费课程。按照中文的语序,实际上应该为“Coursera已经向任何想要参与的人提供了免费课程”。
3、 部分英语词汇(如代词等)指代的主语是否正确(翻译的准确性)?如:“This spring, it entered into agreements with Princeton, the University of Michigan and the University of Pennsylvania, to expand offerings to 43 courses.” Bing译为了“今年春天,它进入产品扩大到 43 课程与普林斯顿大学、 密歇根大学和宾夕法尼亚大学的协议。”,而实际上的意思为:“今年春天,它(Coursera)扩大到 43 课程与普林斯顿大学、 密歇根大学和宾夕法尼亚大学的协议。”
4、 一词多义,究竟根据上下文应该选择哪一个释义(翻译的准确性)。如:Others:不应该翻译为其他人,应翻译为其他大学;“Will free college courses replace degrees? ”被误译为了“免费大学课程将会取代度吗?”,实际上degree应该解释为“学位”。
另外,我想到了另外两种在文章中没看到,但是可能会产生的错误:
5、 特殊字符串是不是应该翻译(网址、邮件地址),www.xxx.com, mail@outlook.com 之类的特殊字符串是不用翻译的,这一点Bing并没有出问题,赞一个。
6、助词(语气助词、强调助词等)是不是要翻译。如英语的一句话中经常会出现“I do love it.”之类表示加强语气的词汇"do"。在这种情况下,不能把do给翻译为“做”或其他常有的意思。而是应该翻译成“真的,确实”等,按照这样翻译:“我真的很喜欢它”,就读起来就通顺多了。
虽然看起来BUG不少,但是综合下来,一共会有以下三类的BUG:
1、一词多义(3、4条);
2、翻译的必要性(1、5、6条);
3、中英文语序的差别(2条);
接下来是我想到的一些解决方案,毕竟我不是专家,以前也没怎么接触过智能翻译的技术,还请老师和同学多多包涵。
解决方案:
一、 一词多义:
1、相邻名词、动词、形容词的匹配。
虽然我对翻译的技术细节不了解,但是我觉得中英文之间的翻译应该有个字典什么的可以查。
可能的解决方案为:根据相邻词匹配概率的大小进行匹配,匹配概率大的则匹配,如果同时有两个匹配概率相差不多,则再递归相应地往 前、往后找匹配(我记得字符串匹配有KMP算法什么的,或许还有更高效的算法 -_-|| )。如果已经找到句子的开头和末尾了,还有好几种可能性,则给出上下文,让用户进行选择,虽然这种方法仍然会有一定概率的误译,不过几率应该会大大地降低。
2、代词的指示正确性。
寻找正确的代词的指示是个很纠结的事情,对于我们经历过高考的大学生们来说,做过的英语阅读中代词指代没看懂的情况也屡见不鲜。因此对于计算机而言要100%地实现指代正确几率很小。但是,由于在英语中代词往往指代的是离他最近的一个主语或者宾语,所以要实现指代正确也并不是不可能的事情。
可能的解决方案是,先找到前句的主语和宾语,将第1条中的匹配加进来,看一下主语和宾语哪一个更适合这个代词的指代。这种方法对于简单的句子或许并不是特别困难,但是如果碰到倒装、多重宾语、定语从句,可能还是会有比较大的难度,暂时没什么好的想法,只能特殊情况特殊考虑。
二、翻译的必要性:
1、特殊字符串。
可能的解决方案:记录特殊字符串中的格式,根据格式来匹配对应字符串格式,并决定是否进行翻译。如网站网址的格式为www.xxx.org/aa/bb,电邮的格式为aabbcc@outlook.com等。
2、人名、专有名词翻译。
首先考虑到专有名词和人名的特殊性,他们的开头字母或者全部字母都是大写字母。所以,这个问题看上去相对好解决一些,总共有一下几种情况:
(1)、该字符串全部字母为大写(“I”除外……)。
对字符串扫描后能很容易就判断他为专有名词。对于组织(UN, WTO)、某项赛事(NBA,FIFA)等,因为其全部字符都为大写字母,所以可以建一个字典记录这些特殊字符串,在翻译的时候索引扫描,进行翻译;
(2)、该字符串首字母为大写。
(2).1、如果字符串不在句首。一般情况下我觉得不翻译比较妥当,而且翻译了意义也不大。
(2).2、人名出现在句首。这一点的话可以参照第一条的1进行改变:如果最后递归找不到合适的翻译,则查找该翻译出现的频率,如果词频不高,则自动默认为专有人名,放弃翻译。反之,则交由用户进行选择是否翻译。(前者的概率大很多,所以交由用户翻译的概率应该会很小)。
3、助词的翻译。
正如前面所说,如do之类的助词,不能按照常规的意思翻译,但是此类助词出现的频率其实也不大。而且可以发现即使按照do的常规意思翻译,“I do love it.”中就会出现do和love两个动词的矛盾。
因此,一个可能的解决方案是:先建立一个类似的助词库,如果有扫描到上述类似的矛盾,则判断该单词为助词,进行特殊翻译。
三、 中英文语序的差别
一般来说,中英文中会有这样几种语序的差别,介词、副词with\as等等的倒装;定于从句、宾语从句(中文中一般是倒过来表达的)等。
可能的解决方案: 1、设计语序框架,在中文中,语序一般为:主语->介词->副词->谓语->宾语,而英语中通常为主语->谓语->宾语->副词->介词。
2、定于从句和宾语从句就扫描先行词判断关系代词指代的是哪一个词,再进行语序的倒装,翻译的时候把关系代词去掉即可。
有关BUG和思考的解决方案都写完了,之后写一下对老师提出的众包的思考。上网学习了一下,众包就是把工作任务以自由自愿的形式外包给非特定的大众网络的做法。我觉得这个想法用在BING翻译上很不错,就像WIKI百科一样。既然我们可以发动群众的力量去使一个百科变得完美,那为什么不能把翻译众包给大众,让大家来一起优化BING翻译呢?但是在优化的时候,也是有许多事情要注意,比如说:必须要有一些审核制度,以避免胡乱篡改释义等等。此外,可以给修改正确且次数多的网民以专家头衔,调动积极性的同时,让他们参与审核翻译的准确性,以保证翻译质量的良性循环。
关于老师第二个NABC的创新想法,我的理解是:N:用户需求分析,A:实现创新功能,B:进行客户营销,C:维持产品的生命力。虽然现在暂时没有什么好点子,但是我觉得这是每一条创新的必经之路。因为只有知道用户需要什么,才能针对性地思考点子,而不是天马行空。有了点子后必须要能做出功能强大的产品,起码不能有一堆BUG吧。客户营销则是如何把你做出来的东西推广出去,让更多的人受益。而维持产品生命力应该是更加考验人的,产品仅仅是昙花一现,要能把握市场趋势,与时俱进,做出适当的改变,对于IT行业来讲尤为重要。
浙公网安备 33010602011771号