AI与MT发展历程——EBMT篇

基于实例的机器翻译(EBMT)

机器翻译并没随着人工智能进入第二次严冬。在人工智能进入第二次严冬的困难时刻,机器翻译研究者开始调整战略目标,迅速地实现了战略目标转移。在20世纪70年代末至80年代初,人工智能领域经历了所谓的“第二次严冬”(AI Winter)。由于早期人工智能研究未能达到预期的成果,政府和企业对AI的投资大幅减少,研究进展陷入低谷。然而,与此同时,机器翻译(Machine Translation, MT)领域并没有完全停滞。相反,机器翻译研究者迅速调整战略目标,探索新的翻译方法,以应对这一挑战。

日本尤其对机器翻译感兴趣。日本虽没有冷战,但是当时懂英语的日本人很少。这对于即将到来的全球化是个很大的问题,所以日本人非常有动力,想要找到机器翻译的方法。基于规则的英译日非常复杂。日语的语法结构完全不同,所有的单词必须重新排列,并追加新单词。在这一背景下,日本计算语言学家长尾真(Makoto Nagao)提出了基于实例的机器翻译(Example-Based Machine Translation, EBMT)的概念,并提出“使用准备好的短语代替重复翻译”的想法。1984年,长尾真于日本京都召开的国际语言处理会议(International Conference on Theoretical and Methodological Issues in Machine Translation of Natural Languages, TMI)上发表了他的著名演讲,并在演讲中详细介绍了EBMT的概念和方法。

这次会议上的演讲和相关论文是EBMT概念正式提出的标志性时刻。长尾真的论文标题为《A Framework of a Mechanical Translation between Japanese and English by Analogy Principle》(通过类比原理在日英之间进行机械翻译的框架),发表在TMI会议的论文集中,详细阐述了EBMT的核心思想。

EBMT的核心思想是利用已有的翻译实例进行匹配和类比,以生成新的翻译。这一方法源于对人类翻译过程的观察:当面对复杂或不熟悉的句子时,人类译者往往会参考和借鉴以前翻译过的句子或短语。长尾真提出,通过构建一个包含大量双语对照句子的实例库,机器翻译系统可以在需要翻译新句子时,通过检索和匹配相似的翻译实例,利用这些实例进行类比和重组,从而生成新的翻译。

想象一下,如果要翻译一个简单的句子:“I’m going to the cinema。” 如果已经翻译过另外一个类似的句子:“I’m going to the theater”,而且可以从词典中找到“cinema”这个单词。那么所要做的是找出两个句子的不同之处,然后翻译这个有差异的单词,但不要破坏句子的结构。拥有的例子越多,翻译效果越佳。

我可以用同样的方法写出了完全不懂的另一种语言的句子。

长尾真提出的EBMT方法主要包括以下几个步骤:

1. 实例库的建立:

收集大量高质量的双语对照句子,形成一个庞大的实例库。实例库需要涵盖不同类型的句子、结构和上下文。

2. 相似度匹配:

在需要翻译一个新句子时,系统在实例库中检索与新句子相似的翻译实例。相似度匹配可以基于词汇、句法结构、语义等多个维度。

3. 类比生成:

利用检索到的相似实例,通过类比和重组,生成新句子的翻译。这个过程包括调整词汇和句法结构,使生成的翻译符合目标语言的规范和习惯。

基于实例的机器翻译(EBMT)方法具有许多优点和局限性。其主要优点在于高效利用已有的翻译实例,可以在一定程度上解决基于规则和统计方法中的一些难题。对于不规则或复杂结构的句子,EBMT通过实例匹配可以提供更灵活的解决方案,相比基于规则的机器翻译(RBMT),开发成本较低,因为不需要编写大量的规则,只需要一个足够大的实例库。然而,EBMT也存在一些局限性。其性能高度依赖于实例库的规模和质量,对于低资源语言效果较差,匹配过程中对于完全没有在实例库中出现过的句子,可能无法提供准确的翻译。此外,在生成新的翻译时,句子的重组和调整可能导致语法和语义错误。尽管如此,EBMT作为一种新的翻译思路,为机器翻译领域提供了重要的补充。

长尾真的EBMT思想对机器翻译领域产生了深远影响。EBMT通过引入实例库和类比方法,突破了基于规则方法的局限,提供了一种新的翻译思路,不依赖于复杂的规则系统,而是通过实例匹配和类比生成翻译。这种方法不仅为机器翻译研究开辟了新的方向,还推动了混合翻译方法的发展,现代机器翻译系统常常结合基于规则、统计和实例的方法,利用各自的优势提高翻译质量。此外,EBMT的思想还启发了自然语言处理、信息检索和问答系统等其他领域的研究,为这些领域的发展提供了新的思路和方法。

尽管人工智能在20世纪80年代经历了“第二次严冬”,机器翻译领域的研究者们却通过调整战略目标,开辟了新的研究方向。长尾真在1984年提出的基于实例的机器翻译(EBMT)概念,为机器翻译提供了一种全新的方法,通过利用已有的翻译实例,实现了更加灵活和高效的翻译。这一概念不仅在机器翻译领域取得了显著成效,也对整个自然语言处理领域产生了深远的影响。

EBMT的方法给全世界的科学家带来了一丝曙光:事实证明,可以通过向机器输入已有的翻译实现机器翻译,而无需花费多年的时间建立规则和例外。这个方法虽然不算是一次彻底的变革,但显然是向前迈进了一大步。仅在5年后,革命性的发明——统计型机器翻译(Statistical Machine Translation, SMT)出现了。

CN