機(jī)器翻譯：主要的機(jī)器翻譯方法評(píng)述

日期：2012-10-09 | 閱讀：

據(jù)譯雅馨翻譯公司了解到，機(jī)器翻譯的過程一般可簡化為三個(gè)階段：原文分析、原文譯文轉(zhuǎn)化和譯文生成。表象上，機(jī)器翻譯的核心問題是翻譯的準(zhǔn)確性；實(shí)質(zhì)上，體現(xiàn)在技術(shù)層面則是

機(jī)器翻譯（Machine Translation），又稱為自動(dòng)翻譯，是利用計(jì)算機(jī)把一種自然源語言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語言的過程，它是自然語言處理（Natural Language Processing）的一個(gè)分支，與計(jì)算語言學(xué)（Computational Linguistics）、自然語言理解（Natural Language Understanding）之間存在著密不可分的關(guān)系。

步入21世紀(jì)以來，隨著國際互聯(lián)網(wǎng)（Internet）的迅猛發(fā)展和世界經(jīng)濟(jì)一體化的加速，網(wǎng)絡(luò)信息急劇膨脹，國際交流日益頻繁，如何克服語言障礙已經(jīng)成為國際社會(huì)共同面對的問題。由于人工翻譯的方式遠(yuǎn)遠(yuǎn)不能滿足需求，利用機(jī)器翻譯技術(shù)協(xié)助人們快速獲取信息，已經(jīng)成為必然的趨勢。

據(jù)譯雅馨翻譯公司了解到，機(jī)器翻譯的過程一般可簡化為三個(gè)階段：原文分析、原文譯文轉(zhuǎn)化和譯文生成。表象上，機(jī)器翻譯的核心問題是翻譯的準(zhǔn)確性；實(shí)質(zhì)上，體現(xiàn)在技術(shù)層面則是機(jī)器翻譯系統(tǒng)采用的方法論問題。

在方法論層面，機(jī)器翻譯系統(tǒng)可分為基于規(guī)則（Rule-Based）和基于語料庫（Corpus-Based）兩大類。前者是由詞典和語法規(guī)則庫構(gòu)成翻譯知識(shí)庫，后者則是以語料的應(yīng)用為核心，由經(jīng)過劃分并具有標(biāo)注的語料庫構(gòu)成知識(shí)庫。其中，基于語料庫的方法又可以分為基于統(tǒng)計(jì)（Statistics-based）的方法和基于實(shí)例（Example-based）的方法。

換個(gè)角度說，基于規(guī)則的方法屬于理性主義范疇，基于語料庫的方法則屬于經(jīng)驗(yàn)范疇?；仡櫧甑臋C(jī)器翻譯發(fā)展史，翻譯方法論的演變實(shí)際上就是“經(jīng)驗(yàn)”與“理性”的相互“交流”。

1．主導(dǎo)地位的基于規(guī)則的方法

（1）基于規(guī)則方法的發(fā)展歷程

早期的機(jī)器翻譯系統(tǒng)基本上都采用基于規(guī)則的方法。1954年，世界上第一臺(tái)機(jī)器翻譯系統(tǒng)IBM701誕生，它只有250條俄語詞匯、6條基本語法規(guī)則以及49個(gè)俄語翻譯例句，通過直譯法完成了世界上第一次機(jī)器翻譯實(shí)驗(yàn)。所謂直譯法，即把源語言中的單詞或句子直接替換成相應(yīng)目標(biāo)語的單詞或句子，必要時(shí)對詞序進(jìn)行適當(dāng)?shù)恼{(diào)整。直譯法一般是針對特殊的語言對來設(shè)計(jì)，系統(tǒng)移植比較困難，缺乏通用性。

典型的直譯法翻譯系統(tǒng)是Systran系統(tǒng)，它是美國在喬治敦大學(xué)機(jī)器翻譯系統(tǒng)的基礎(chǔ)上進(jìn)一步開發(fā)的，設(shè)計(jì)之初只能完成從俄文到英文的翻譯，后來改進(jìn)為可實(shí)現(xiàn)多語種之間的互譯。這個(gè)系統(tǒng)對機(jī)器翻譯的后續(xù)發(fā)展有著很大的影響，目前仍有不少翻譯系統(tǒng)采用直譯法。

在直譯法逐步改進(jìn)的同時(shí)，基于轉(zhuǎn)換的方法也相伴而生。所謂基于轉(zhuǎn)換，就是對句子結(jié)構(gòu)進(jìn)行層次分析，在詞對詞翻譯的基礎(chǔ)上，根據(jù)不同語言的不同規(guī)則生成相應(yīng)的譯文。這種方法需要三部字典：源語字典、源語—目標(biāo)語雙語字典和目標(biāo)語字典。

最直觀的例子就是中英文互譯，中國人的名字是先姓后名，美國人的名字是先名后姓；中文句子是主謂賓加名詞短語，英文句子是主謂賓加從句。諸如此類的不同規(guī)則，在轉(zhuǎn)換法的翻譯過程中，都需要通過三部字典中的特定描述才能順利轉(zhuǎn)化。

伴隨著直譯法和轉(zhuǎn)換法的發(fā)展，另外一種基于規(guī)則的方法—中間語法應(yīng)運(yùn)而生。它先把源語言分析轉(zhuǎn)換成對所有語言都適合的一種句法—語義表示，再由此轉(zhuǎn)換為目標(biāo)語言。也就是說，基于該方法的翻譯過程包括兩個(gè)階段：從源語言到中間語言，再從中間語言到目標(biāo)語言。

這種方法有一個(gè)典型的好處：節(jié)省開發(fā)費(fèi)用。當(dāng)需要多種語言翻譯的時(shí)候，可以直接通過中間語言翻譯到目標(biāo)語言，而不需要每一種語言都設(shè)立一套規(guī)則程序。假如有6種語言需要彼此相互翻譯，采用基于轉(zhuǎn)換的方法需要30個(gè)語言轉(zhuǎn)換模塊（每對語言都需要一個(gè)模塊），而采用中間語法的系統(tǒng)只需要12個(gè)模塊。

雖然提出了三種方法，但顯然當(dāng)時(shí)的研究者還沒有意識(shí)到機(jī)器翻譯的難度，這些簡單的方法對于稍復(fù)雜的句子就已經(jīng)無能為力了。隨著研究的深入，人們逐漸認(rèn)識(shí)到：要完成機(jī)器翻譯，計(jì)算機(jī)必須能夠在一定程度上理解源語言的句子。與此同時(shí)，人工智能這門學(xué)科在20世紀(jì)70年代有了很大的發(fā)展，各種知識(shí)表示和知識(shí)推理的理論和算法紛紛被研究者提出。人們對自然語言的理解和機(jī)器翻譯的認(rèn)識(shí)有了質(zhì)的飛躍。

這一階段研究人員對基于規(guī)則的方法進(jìn)行了創(chuàng)新性的改進(jìn)，其主要特點(diǎn)是對語言進(jìn)行了深層次的分析、轉(zhuǎn)換和生成，也就是說，翻譯不再是只在句子的表層（詞序列）上進(jìn)行，而是在句子的某種更深層結(jié)構(gòu)（例如句法結(jié)構(gòu)、語義結(jié)構(gòu)或知識(shí)表示）的層面上進(jìn)行。要實(shí)現(xiàn)這一點(diǎn)，系統(tǒng)就需要大量的語言知識(shí)和翻譯知識(shí)，為此，機(jī)器翻譯程序采用了數(shù)據(jù)與程序相分離的存儲(chǔ)形式，語言知識(shí)和翻譯知識(shí)以數(shù)據(jù)形式存在，而翻譯程序利用這些數(shù)據(jù)進(jìn)行翻譯。這種數(shù)據(jù)最常見的表現(xiàn)形式就是規(guī)則和詞典。
基于規(guī)則的機(jī)器翻譯系統(tǒng)在1980年代達(dá)到一個(gè)高峰期，市場上涌現(xiàn)出很多基于規(guī)則的機(jī)器翻譯系統(tǒng)，其中一些已經(jīng)步入實(shí)用化階段。國際上也出現(xiàn)了一些大規(guī)模的研究計(jì)劃，例如歐盟的Eurotran項(xiàng)目和日本的亞洲五國語言機(jī)器翻譯項(xiàng)目。即使到目前，大多數(shù)實(shí)用型機(jī)器翻譯系統(tǒng)也都是以基于規(guī)則為主。整體而言，基于規(guī)則方法的翻譯系統(tǒng)覆蓋面寬，但譯文質(zhì)量的一致性有待提高。

（2）基于規(guī)則方法的現(xiàn)狀

縱觀機(jī)器翻譯發(fā)展的歷程，可以看出，機(jī)器翻譯的主流方法一直是基于規(guī)則的方法。國際上有影響的機(jī)器翻譯系統(tǒng)基本上都需要規(guī)則的貢獻(xiàn)，即使在多種技術(shù)并存的系統(tǒng)中也要包含規(guī)則，基于規(guī)則的機(jī)器翻譯技術(shù)思想是被普遍接受的、成熟的，也是到目前為止應(yīng)用最廣的方法。基于規(guī)則的機(jī)器翻譯系統(tǒng)就是對語言語句的詞法、語義進(jìn)行分析、判斷和取舍，然后重新排列組合，最后生成等價(jià)的目標(biāo)語言。

基于規(guī)則的機(jī)器翻譯方法導(dǎo)致了程序工作者和語言工作者的一種合作范式：程序工作者和語言工作者先共同制定數(shù)據(jù)規(guī)范，確定翻譯算法、語言知識(shí)和翻譯知識(shí)的表示形式，然后程序工作者編寫程序?qū)崿F(xiàn)翻譯算法，語言工作者編寫語言知識(shí)和翻譯知識(shí)驅(qū)動(dòng)翻譯算法的運(yùn)行，兩者分工合作，缺一不可。

在這種工作范式下，系統(tǒng)翻譯性能通常受到兩方面因素的制約：一是算法的設(shè)計(jì)是否合理，另一個(gè)是語言知識(shí)是否足夠豐富，其中最主要的瓶頸還在于后者。一旦翻譯程序編程結(jié)束，并經(jīng)過調(diào)試穩(wěn)定以后，基本上就不需要再做修改，改進(jìn)翻譯性能的任務(wù)完全落在了語言工作者的身上。對于基于規(guī)則的機(jī)器翻譯系統(tǒng)而言，知識(shí)獲取實(shí)際上是最大的瓶頸。通常，經(jīng)過一個(gè)人一年左右的調(diào)試就能得到一個(gè)可以翻譯簡單句子的演示系統(tǒng)，但要真正得到一個(gè)初步實(shí)用的機(jī)器翻譯系統(tǒng)，非得要通過一批人經(jīng)年累月的調(diào)試和積累不可。

在上述背景下，一方面，研究者們已經(jīng)建立了一定規(guī)模的規(guī)則庫，覆蓋了相當(dāng)多的語言現(xiàn)象。另一方面，基于規(guī)則的機(jī)器翻譯技術(shù)不斷借鑒和融合其他方法的優(yōu)點(diǎn)，這些變化主要體現(xiàn)在：

在規(guī)則的獲取方面，傳統(tǒng)的規(guī)則方法主要依靠語言學(xué)家的總結(jié)進(jìn)行調(diào)試，而現(xiàn)在更加重視從大規(guī)模語料庫中自動(dòng)獲取規(guī)則。

傳統(tǒng)的規(guī)則方法往往偏重描述粗粒度、全局化的大范圍語言學(xué)規(guī)則知識(shí)，而現(xiàn)在則更加重視描述細(xì)粒度、局部的小范圍的語言學(xué)知識(shí)，呈現(xiàn)出“小規(guī)則庫、大詞典”的趨勢。

在知識(shí)表示方面，為了以更小的粒度、更加準(zhǔn)確地對翻譯知識(shí)進(jìn)行描述，一般要對單純的與上下文無關(guān)的規(guī)則作一些改進(jìn)。改進(jìn)的方法有以下兩種：一種是采用特征結(jié)構(gòu)與合一算法，例如LFG、GPSG 等等，這種方法一般要求具有較好的語言學(xué)背景；另外一種是采用詞匯化的方法對規(guī)則加以細(xì)化。

傳統(tǒng)的規(guī)則方法采用的往往是非此即彼的確定性原則，系統(tǒng)的魯棒性較差，而現(xiàn)在的規(guī)則系統(tǒng)中一般都引入各種形式的概率或者評(píng)分函數(shù)，系統(tǒng)的魯棒性有所提高。概率與評(píng)分函數(shù)方法的區(qū)別在于：前者一般有比較嚴(yán)格的數(shù)學(xué)模型做基礎(chǔ)，概率值的計(jì)算要以對大規(guī)模語料庫的統(tǒng)計(jì)為依據(jù)；后者的主觀性較強(qiáng)，評(píng)分規(guī)則的確定以及具體規(guī)則的分值都是人為的，人們可以根據(jù)經(jīng)驗(yàn)進(jìn)行調(diào)整。

隨著機(jī)器翻譯研究的不斷深入，規(guī)則方法存在的問題逐漸暴露出來。該方法最大的問題在其知識(shí)獲取方面，單純依靠語言工作者人工編寫規(guī)則似乎永遠(yuǎn)也不能滿足實(shí)際應(yīng)用的需要。一個(gè)在市場上銷售的機(jī)器翻譯系統(tǒng)通常都要經(jīng)過數(shù)十人乃至數(shù)百人的調(diào)試，但翻譯效果還是遠(yuǎn)遠(yuǎn)不能達(dá)到令人滿意的程度。

更為糟糕的是，人工添加規(guī)則的做法導(dǎo)致規(guī)則庫的規(guī)模更大，而系統(tǒng)性能的改進(jìn)則更為困難。因?yàn)橐环矫嬉?guī)則庫越大，規(guī)則之間的沖突就越多，出現(xiàn)了所謂的“蹺蹺板現(xiàn)象”，系統(tǒng)雖然對某些句子翻譯效果好了，但對另外一些句子的翻譯效果反而差了，系統(tǒng)的整體性能并沒有提高；另一方面，在后面加入的規(guī)則通常都是一些粒度非常小的規(guī)則，只能處理非常個(gè)別的語言現(xiàn)象，對系統(tǒng)整體性能的改進(jìn)很小，整個(gè)系統(tǒng)的性能提升極為緩慢，而這個(gè)時(shí)期一些大型的機(jī)器翻譯研究項(xiàng)目也都以失敗而告終?；谝?guī)則的機(jī)器翻譯方法似乎走到了盡頭。

2．異軍突起的基于統(tǒng)計(jì)的方法

基于統(tǒng)計(jì)的機(jī)器翻譯方法把機(jī)器翻譯看成是一個(gè)信息傳輸?shù)倪^程，用一種信道模型對機(jī)器翻譯進(jìn)行解釋。這種思想認(rèn)為，源語言句子到目標(biāo)語言句子的翻譯是一個(gè)概率問題，任何一個(gè)目標(biāo)語言句子都有可能是任何一個(gè)源語言句子的譯文，只是概率不同，機(jī)器翻譯的任務(wù)就是找到概率最大的句子。因此統(tǒng)計(jì)機(jī)器翻譯又可以分為以下幾個(gè)問題：模型問題、訓(xùn)練問題、解碼問題。所謂模型問題，就是為機(jī)器翻譯建立概率模型，也就是要定義源語言句子到目標(biāo)語言句子的翻譯概率的計(jì)算方法。而訓(xùn)練問題，是要利用語料庫來得到這個(gè)模型的所有參數(shù)。所謂解碼問題，則是在已知模型和參數(shù)的基礎(chǔ)上，對于任何一個(gè)輸入的源語言句子，去查找概率最大的譯文。

實(shí)際上，用統(tǒng)計(jì)學(xué)方法解決機(jī)器翻譯問題的想法并非是20 世紀(jì)90年代的全新思想，1949年W. Weaver就已經(jīng)提出使用這種方法，只是由于喬姆斯基（Chomsky）等人的批判，這種方法很快就被放棄了。批判的理由主要是一點(diǎn)：語言是無限的，基于經(jīng)驗(yàn)主義的統(tǒng)計(jì)描述無法滿足語言的實(shí)際要求。另外，限于當(dāng)時(shí)的計(jì)算機(jī)速度，統(tǒng)計(jì)的價(jià)值也無從談起。而現(xiàn)在，計(jì)算機(jī)不論從速度還是從容量方面都有了大幅度的提高，昔日大型計(jì)算機(jī)才能完成的工作，今日小型工作站或個(gè)人計(jì)算機(jī)就可以完成了。此外，統(tǒng)計(jì)方法在語音識(shí)別、文字識(shí)別、詞典編纂等領(lǐng)域的成功應(yīng)用也表明這一方法在語言自動(dòng)處理領(lǐng)域還是很有成效的。

統(tǒng)計(jì)機(jī)器翻譯方法的數(shù)學(xué)模型是由國際商業(yè)機(jī)器公司（IBM）的研究人員提出的。統(tǒng)計(jì)機(jī)器翻譯的基本思想是：從理論上說，這種模型只考慮了詞與詞之間的線性關(guān)系，沒有考慮句子的結(jié)構(gòu)。這在兩種語言的語序相差較大時(shí)效果可能不會(huì)太好。如果在考慮語言模型和翻譯模型時(shí)將句法結(jié)構(gòu)或語義結(jié)構(gòu)考慮進(jìn)來，應(yīng)該會(huì)得到更好的結(jié)果。

統(tǒng)計(jì)方法的興起緣于上世紀(jì)九十年代以來互聯(lián)網(wǎng)的廣泛應(yīng)用，整個(gè)社會(huì)的信息呈現(xiàn)爆炸趨勢，機(jī)器翻譯的需求凸顯。與此同時(shí)，人們對于提高機(jī)器翻譯的質(zhì)量和速度有了新的想法，基于“統(tǒng)計(jì)”的方法備受關(guān)注。參與這個(gè)領(lǐng)域研究的人數(shù)和發(fā)表論文的數(shù)量都呈指數(shù)型增長。統(tǒng)計(jì)機(jī)器翻譯技術(shù)本身也經(jīng)過了一個(gè)不斷發(fā)展的過程，統(tǒng)計(jì)集群翻譯的模型框架從早期的噪聲信道模型發(fā)展到目前普遍采用的對數(shù)線性模型，其中最主要的統(tǒng)計(jì)翻譯模型也從早期的基于詞的模型發(fā)展到了目前主流的基于短語的模型，以及目前很多人都在進(jìn)行的基于句法的統(tǒng)計(jì)翻譯模型研究。

目前，Google的在線翻譯已為人熟知，其背后的技術(shù)即為基于統(tǒng)計(jì)的機(jī)器翻譯方法，基本運(yùn)行原理是通過搜索大量的雙語網(wǎng)頁內(nèi)容，將其作為語料庫，然后由計(jì)算機(jī)自動(dòng)選取最為常見的詞與詞的對應(yīng)關(guān)系，最后給出翻譯結(jié)果。不可否認(rèn)，Google采用的技術(shù)是先進(jìn)的，但它還是經(jīng)常鬧出各種“翻譯笑話”。其原因在于：基于統(tǒng)計(jì)的方法需要大規(guī)模雙語語料，翻譯模型、語言模型參數(shù)的準(zhǔn)確性直接依賴于語料的多少，而翻譯質(zhì)量的高低主要取決于概率模型的好壞和語料庫的覆蓋能力。基于統(tǒng)計(jì)的方法雖然不需要依賴大量知識(shí)，直接靠統(tǒng)計(jì)結(jié)果進(jìn)行歧義消解處理和譯文選擇，避開了語言理解的諸多難題，但語料的選擇和處理工程量巨大。因此目前通用領(lǐng)域的機(jī)器翻譯系統(tǒng)很少以統(tǒng)計(jì)方法為主。

3．另辟蹊徑的基于實(shí)例的方法

與統(tǒng)計(jì)方法相同，基于實(shí)例的機(jī)器翻譯方法也是一種基于語料庫的方法，其基本思想由日本著名的機(jī)器翻譯專家長尾真提出，他研究了外語初學(xué)者的基本模式，發(fā)現(xiàn)初學(xué)外語的人總是先記住最基本的英語句子和對應(yīng)的日語句子，而后做替換練習(xí)。參照這個(gè)學(xué)習(xí)過程，他提出了基于實(shí)例的機(jī)器翻譯思想，即不經(jīng)過深層分析，僅僅通過已有的經(jīng)驗(yàn)知識(shí)，通過類比原理進(jìn)行翻譯。其翻譯過程是首先將源語言正確分解為句子，再分解為短語碎片，接著通過類比的方法把這些短語碎片譯成目標(biāo)語言短語，最后把這些短語合并成長句。對于實(shí)例方法的系統(tǒng)而言，其主要知識(shí)源就是雙語對照的實(shí)例庫，不需要什么字典、語法規(guī)則庫之類的東西，核心的問題就是通過最大限度的統(tǒng)計(jì)，得出雙語對照實(shí)例庫。

基于實(shí)例的機(jī)器翻譯對于相同或相似文本的翻譯有非常顯著的效果，隨著例句庫規(guī)模的增加，其作用也越來越顯著。對于實(shí)例庫中的已有文本，可以直接獲得高質(zhì)量的翻譯結(jié)果。對與實(shí)例庫中存在的實(shí)例十分相似的文本，可以通過類比推理，并對翻譯結(jié)果進(jìn)行少量的修改，構(gòu)造出近似的翻譯結(jié)果。

這種方法在初推之時(shí)，得到了很多人的推崇。但一段時(shí)期后，問題出現(xiàn)了。由于該方法需要一個(gè)很大的語料庫作為支撐，語言的實(shí)際需求量非常龐大。但受限于語料庫規(guī)模，基于實(shí)例的機(jī)器翻譯很難達(dá)到較高的匹配率，往往只有限定在比較窄的或者專業(yè)的領(lǐng)域時(shí)，翻譯效果才能達(dá)到使用要求。因而到目前為止，還很少有機(jī)器翻譯系統(tǒng)采用純粹的基于實(shí)例的方法，一般都是把基于實(shí)例的機(jī)器翻譯方法作為多翻譯引擎中的一個(gè)，以提高翻譯的正確率。

4．各有長短融合使用

應(yīng)該說，無論是直譯法、轉(zhuǎn)換法、中間語法，還是實(shí)例法和統(tǒng)計(jì)法，都是各有長短。作為理性主義范疇，前面三者屬于基于規(guī)則的方法。它的典型缺點(diǎn)是技術(shù)粒度太大，即計(jì)算機(jī)語言無法完全描述實(shí)際語言組合中無限豐富的規(guī)則。
而作為經(jīng)驗(yàn)主義范疇，后面兩者屬于基于語料庫的方法，其典型缺點(diǎn)是數(shù)據(jù)稀疏。也就是說，由于語言的無限性，任何高性能的計(jì)算機(jī)都無法統(tǒng)計(jì)出所有短語的使用情況，總是會(huì)存在疏漏。

隨著這些方法的各自缺陷逐步為人們所認(rèn)知，自上世紀(jì)90年代以來，機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)越來越多地集成了不同的方法和策略，基于單一方法的產(chǎn)品越來越少。其中最具有代表性的無疑是尼倫伯格提出的多引擎機(jī)器翻譯系統(tǒng)，即系統(tǒng)中集成多種機(jī)器翻譯的實(shí)現(xiàn)方法，每種方法構(gòu)成的翻譯模塊作為一個(gè)引擎，多個(gè)引擎協(xié)同配合，共同完成翻譯工作。

我們判斷：在今后的機(jī)器翻譯研究中，多種方法互相借鑒，互相融合的趨勢會(huì)越來越明顯?；谝?guī)則的方法與基于語料庫的方法相結(jié)合，機(jī)器翻譯與翻譯記憶相結(jié)合，很可能是今后研究發(fā)展的主流方向。

上一篇：翻譯中風(fēng)格變異的藝術(shù)再現(xiàn) 下一篇：翻譯公司：淺談臺(tái)灣對外國影片片名的翻譯