10年專業(yè)筆譯品牌?
10年數(shù)萬場口譯
專業(yè)留學(xué)移民翻譯
多語言網(wǎng)站翻譯
89種語言服務(wù)
機(jī)器翻譯(Machine Translation),又稱為自動(dòng)翻譯,是利用計(jì)算機(jī)把一種自然源語言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語言的過程,它是自然語言處理(Natural Language Processing)的一個(gè)分支,與計(jì)算語言學(xué)(Computational Linguistics)、自然語言理解(Natural Language Understanding)之間存在著密不可分的關(guān)系。
步入21世紀(jì)以來,隨著國際互聯(lián)網(wǎng)(Internet)的迅猛發(fā)展和世界經(jīng)濟(jì)一體化的加速,網(wǎng)絡(luò)信息急劇膨脹,國際交流日益頻繁,如何克服語言障礙已經(jīng)成為國際社會(huì)共同面對的問題。由于人工翻譯的方式遠(yuǎn)遠(yuǎn)不能滿足需求,利用機(jī)器翻譯技術(shù)協(xié)助人們快速獲取信息,已經(jīng)成為必然的趨勢。
在方法論層面,機(jī)器翻譯系統(tǒng)可分為基于規(guī)則(Rule-Based)和基于語料庫(Corpus-Based)兩大類。前者是由詞典和語法規(guī)則庫構(gòu)成翻譯知識(shí)庫,后者則是以語料的應(yīng)用為核心,由經(jīng)過劃分并具有標(biāo)注的語料庫構(gòu)成知識(shí)庫。其中,基于語料庫的方法又可以分為基于統(tǒng)計(jì)(Statistics-based)的方法和基于實(shí)例(Example-based)的方法。
換個(gè)角度說,基于規(guī)則的方法屬于理性主義范疇,基于語料庫的方法則屬于經(jīng)驗(yàn)范疇?;仡櫧甑臋C(jī)器翻譯發(fā)展史,翻譯方法論的演變實(shí)際上就是“經(jīng)驗(yàn)”與“理性”的相互“交流”。
1.主導(dǎo)地位的基于規(guī)則的方法
(1)基于規(guī)則方法的發(fā)展歷程
早期的機(jī)器翻譯系統(tǒng)基本上都采用基于規(guī)則的方法。1954年,世界上第一臺(tái)機(jī)器翻譯系統(tǒng)IBM701誕生,它只有250條俄語詞匯、6條基本語法規(guī)則以及49個(gè)俄語翻譯例句,通過直譯法完成了世界上第一次機(jī)器翻譯實(shí)驗(yàn)。所謂直譯法,即把源語言中的單詞或句子直接替換成相應(yīng)目標(biāo)語的單詞或句子,必要時(shí)對詞序進(jìn)行適當(dāng)?shù)恼{(diào)整。直譯法一般是針對特殊的語言對來設(shè)計(jì),系統(tǒng)移植比較困難,缺乏通用性。
典型的直譯法翻譯系統(tǒng)是Systran系統(tǒng),它是美國在喬治敦大學(xué)機(jī)器翻譯系統(tǒng)的基礎(chǔ)上進(jìn)一步開發(fā)的,設(shè)計(jì)之初只能完成從俄文到英文的翻譯,后來改進(jìn)為可實(shí)現(xiàn)多語種之間的互譯。這個(gè)系統(tǒng)對機(jī)器翻譯的后續(xù)發(fā)展有著很大的影響,目前仍有不少翻譯系統(tǒng)采用直譯法。
在直譯法逐步改進(jìn)的同時(shí),基于轉(zhuǎn)換的方法也相伴而生。所謂基于轉(zhuǎn)換,就是對句子結(jié)構(gòu)進(jìn)行層次分析,在詞對詞翻譯的基礎(chǔ)上,根據(jù)不同語言的不同規(guī)則生成相應(yīng)的譯文。這種方法需要三部字典:源語字典、源語—目標(biāo)語雙語字典和目標(biāo)語字典。
最直觀的例子就是中英文互譯,中國人的名字是先姓后名,美國人的名字是先名后姓;中文句子是主謂賓加名詞短語,英文句子是主謂賓加從句。諸如此類的不同規(guī)則,在轉(zhuǎn)換法的翻譯過程中,都需要通過三部字典中的特定描述才能順利轉(zhuǎn)化。
伴隨著直譯法和轉(zhuǎn)換法的發(fā)展,另外一種基于規(guī)則的方法—中間語法應(yīng)運(yùn)而生。它先把源語言分析轉(zhuǎn)換成對所有語言都適合的一種句法—語義表示,再由此轉(zhuǎn)換為目標(biāo)語言。也就是說,基于該方法的翻譯過程包括兩個(gè)階段:從源語言到中間語言,再從中間語言到目標(biāo)語言。
這種方法有一個(gè)典型的好處:節(jié)省開發(fā)費(fèi)用。當(dāng)需要多種語言翻譯的時(shí)候,可以直接通過中間語言翻譯到目標(biāo)語言,而不需要每一種語言都設(shè)立一套規(guī)則程序。假如有6種語言需要彼此相互翻譯,采用基于轉(zhuǎn)換的方法需要30個(gè)語言轉(zhuǎn)換模塊(每對語言都需要一個(gè)模塊),而采用中間語法的系統(tǒng)只需要12個(gè)模塊。
雖然提出了三種方法,但顯然當(dāng)時(shí)的研究者還沒有意識(shí)到機(jī)器翻譯的難度,這些簡單的方法對于稍復(fù)雜的句子就已經(jīng)無能為力了。隨著研究的深入,人們逐漸認(rèn)識(shí)到:要完成機(jī)器翻譯,計(jì)算機(jī)必須能夠在一定程度上理解源語言的句子。與此同時(shí),人工智能這門學(xué)科在20世紀(jì)70年代有了很大的發(fā)展,各種知識(shí)表示和知識(shí)推理的理論和算法紛紛被研究者提出。人們對自然語言的理解和機(jī)器翻譯的認(rèn)識(shí)有了質(zhì)的飛躍。
這一階段研究人員對基于規(guī)則的方法進(jìn)行了創(chuàng)新性的改進(jìn),其主要特點(diǎn)是對語言進(jìn)行了深層次的分析、轉(zhuǎn)換和生成,也就是說,翻譯不再是只在句子的表層(詞序列)上進(jìn)行,而是在句子的某種更深層結(jié)構(gòu)(例如句法結(jié)構(gòu)、語義結(jié)構(gòu)或知識(shí)表示)的層面上進(jìn)行。要實(shí)現(xiàn)這一點(diǎn),系統(tǒng)就需要大量的語言知識(shí)和翻譯知識(shí),為此,機(jī)器翻譯程序采用了數(shù)據(jù)與程序相分離的存儲(chǔ)形式,語言知識(shí)和翻譯知識(shí)以數(shù)據(jù)形式存在,而翻譯程序利用這些數(shù)據(jù)進(jìn)行翻譯。這種數(shù)據(jù)最常見的表現(xiàn)形式就是規(guī)則和詞典。
基于規(guī)則的機(jī)器翻譯系統(tǒng)在1980年代達(dá)到一個(gè)高峰期,市場上涌現(xiàn)出很多基于規(guī)則的機(jī)器翻譯系統(tǒng),其中一些已經(jīng)步入實(shí)用化階段。國際上也出現(xiàn)了一些大規(guī)模的研究計(jì)劃,例如歐盟的Eurotran項(xiàng)目和日本的亞洲五國語言機(jī)器翻譯項(xiàng)目。即使到目前,大多數(shù)實(shí)用型機(jī)器翻譯系統(tǒng)也都是以基于規(guī)則為主。整體而言,基于規(guī)則方法的翻譯系統(tǒng)覆蓋面寬,但譯文質(zhì)量的一致性有待提高。
(2)基于規(guī)則方法的現(xiàn)狀
縱觀機(jī)器翻譯發(fā)展的歷程,可以看出,機(jī)器翻譯的主流方法一直是基于規(guī)則的方法。國際上有影響的機(jī)器翻譯系統(tǒng)基本上都需要規(guī)則的貢獻(xiàn),即使在多種技術(shù)并存的系統(tǒng)中也要包含規(guī)則,基于規(guī)則的機(jī)器翻譯技術(shù)思想是被普遍接受的、成熟的,也是到目前為止應(yīng)用最廣的方法。基于規(guī)則的機(jī)器翻譯系統(tǒng)就是對語言語句的詞法、語義進(jìn)行分析、判斷和取舍,然后重新排列組合,最后生成等價(jià)的目標(biāo)語言。
基于規(guī)則的機(jī)器翻譯方法導(dǎo)致了程序工作者和語言工作者的一種合作范式:程序工作者和語言工作者先共同制定數(shù)據(jù)規(guī)范,確定翻譯算法、語言知識(shí)和翻譯知識(shí)的表示形式,然后程序工作者編寫程序?qū)崿F(xiàn)翻譯算法,語言工作者編寫語言知識(shí)和翻譯知識(shí)驅(qū)動(dòng)翻譯算法的運(yùn)行,兩者分工合作,缺一不可。
在這種工作范式下,系統(tǒng)翻譯性能通常受到兩方面因素的制約:一是算法的設(shè)計(jì)是否合理,另一個(gè)是語言知識(shí)是否足夠豐富,其中最主要的瓶頸還在于后者。一旦翻譯程序編程結(jié)束,并經(jīng)過調(diào)試穩(wěn)定以后,基本上就不需要再做修改,改進(jìn)翻譯性能的任務(wù)完全落在了語言工作者的身上。對于基于規(guī)則的機(jī)器翻譯系統(tǒng)而言,知識(shí)獲取實(shí)際上是最大的瓶頸。通常,經(jīng)過一個(gè)人一年左右的調(diào)試就能得到一個(gè)可以翻譯簡單句子的演示系統(tǒng),但要真正得到一個(gè)初步實(shí)用的機(jī)器翻譯系統(tǒng),非得要通過一批人經(jīng)年累月的調(diào)試和積累不可。
在上述背景下,一方面,研究者們已經(jīng)建立了一定規(guī)模的規(guī)則庫,覆蓋了相當(dāng)多的語言現(xiàn)象。另一方面,基于規(guī)則的機(jī)器翻譯技術(shù)不斷借鑒和融合其他方法的優(yōu)點(diǎn),這些變化主要體現(xiàn)在:
在規(guī)則的獲取方面,傳統(tǒng)的規(guī)則方法主要依靠語言學(xué)家的總結(jié)進(jìn)行調(diào)試,而現(xiàn)在更加重視從大規(guī)模語料庫中自動(dòng)獲取規(guī)則。
傳統(tǒng)的規(guī)則方法往往偏重描述粗粒度、全局化的大范圍語言學(xué)規(guī)則知識(shí),而現(xiàn)在則更加重視描述細(xì)粒度、局部的小范圍的語言學(xué)知識(shí),呈現(xiàn)出“小規(guī)則庫、大詞典”的趨勢。
在知識(shí)表示方面,為了以更小的粒度、更加準(zhǔn)確地對翻譯知識(shí)進(jìn)行描述,一般要對單純的與上下文無關(guān)的規(guī)則作一些改進(jìn)。改進(jìn)的方法有以下兩種:一種是采用特征結(jié)構(gòu)與合一算法,例如LFG、GPSG 等等,這種方法一般要求具有較好的語言學(xué)背景;另外一種是采用詞匯化的方法對規(guī)則加以細(xì)化。
傳統(tǒng)的規(guī)則方法采用的往往是非此即彼的確定性原則,系統(tǒng)的魯棒性較差,而現(xiàn)在的規(guī)則系統(tǒng)中一般都引入各種形式的概率或者評(píng)分函數(shù),系統(tǒng)的魯棒性有所提高。概率與評(píng)分函數(shù)方法的區(qū)別在于:前者一般有比較嚴(yán)格的數(shù)學(xué)模型做基礎(chǔ),概率值的計(jì)算要以對大規(guī)模語料庫的統(tǒng)計(jì)為依據(jù);后者的主觀性較強(qiáng),評(píng)分規(guī)則的確定以及具體規(guī)則的分值都是人為的,人們可以根據(jù)經(jīng)驗(yàn)進(jìn)行調(diào)整。
隨著機(jī)器翻譯研究的不斷深入,規(guī)則方法存在的問題逐漸暴露出來。該方法最大的問題在其知識(shí)獲取方面,單純依靠語言工作者人工編寫規(guī)則似乎永遠(yuǎn)也不能滿足實(shí)際應(yīng)用的需要。一個(gè)在市場上銷售的機(jī)器翻譯系統(tǒng)通常都要經(jīng)過數(shù)十人乃至數(shù)百人的調(diào)試,但翻譯效果還是遠(yuǎn)遠(yuǎn)不能達(dá)到令人滿意的程度。
更為糟糕的是,人工添加規(guī)則的做法導(dǎo)致規(guī)則庫的規(guī)模更大,而系統(tǒng)性能的改進(jìn)則更為困難。因?yàn)橐环矫嬉?guī)則庫越大,規(guī)則之間的沖突就越多,出現(xiàn)了所謂的“蹺蹺板現(xiàn)象”,系統(tǒng)雖然對某些句子翻譯效果好了,但對另外一些句子的翻譯效果反而差了,系統(tǒng)的整體性能并沒有提高;另一方面,在后面加入的規(guī)則通常都是一些粒度非常小的規(guī)則,只能處理非常個(gè)別的語言現(xiàn)象,對系統(tǒng)整體性能的改進(jìn)很小,整個(gè)系統(tǒng)的性能提升極為緩慢,而這個(gè)時(shí)期一些大型的機(jī)器翻譯研究項(xiàng)目也都以失敗而告終?;谝?guī)則的機(jī)器翻譯方法似乎走到了盡頭。
2.異軍突起的基于統(tǒng)計(jì)的方法
基于統(tǒng)計(jì)的機(jī)器翻譯方法把機(jī)器翻譯看成是一個(gè)信息傳輸?shù)倪^程,用一種信道模型對機(jī)器翻譯進(jìn)行解釋。這種思想認(rèn)為,源語言句子到目標(biāo)語言句子的翻譯是一個(gè)概率問題,任何一個(gè)目標(biāo)語言句子都有可能是任何一個(gè)源語言句子的譯文,只是概率不同,機(jī)器翻譯的任務(wù)就是找到概率最大的句子。因此統(tǒng)計(jì)機(jī)器翻譯又可以分為以下幾個(gè)問題:模型問題、訓(xùn)練問題、解碼問題。所謂模型問題,就是為機(jī)器翻譯建立概率模型,也就是要定義源語言句子到目標(biāo)語言句子的翻譯概率的計(jì)算方法。而訓(xùn)練問題,是要利用語料庫來得到這個(gè)模型的所有參數(shù)。所謂解碼問題,則是在已知模型和參數(shù)的基礎(chǔ)上,對于任何一個(gè)輸入的源語言句子,去查找概率最大的譯文。
實(shí)際上,用統(tǒng)計(jì)學(xué)方法解決機(jī)器翻譯問題的想法并非是20 世紀(jì)90年代的全新思想,1949年W. Weaver就已經(jīng)提出使用這種方法,只是由于喬姆斯基(Chomsky)等人的批判,這種方法很快就被放棄了。批判的理由主要是一點(diǎn):語言是無限的,基于經(jīng)驗(yàn)主義的統(tǒng)計(jì)描述無法滿足語言的實(shí)際要求。另外,限于當(dāng)時(shí)的計(jì)算機(jī)速度,統(tǒng)計(jì)的價(jià)值也無從談起。而現(xiàn)在,計(jì)算機(jī)不論從速度還是從容量方面都有了大幅度的提高,昔日大型計(jì)算機(jī)才能完成的工作,今日小型工作站或個(gè)人計(jì)算機(jī)就可以完成了。此外,統(tǒng)計(jì)方法在語音識(shí)別、文字識(shí)別、詞典編纂等領(lǐng)域的成功應(yīng)用也表明這一方法在語言自動(dòng)處理領(lǐng)域還是很有成效的。
統(tǒng)計(jì)機(jī)器翻譯方法的數(shù)學(xué)模型是由國際商業(yè)機(jī)器公司(IBM)的研究人員提出的。統(tǒng)計(jì)機(jī)器翻譯的基本思想是:從理論上說,這種模型只考慮了詞與詞之間的線性關(guān)系,沒有考慮句子的結(jié)構(gòu)。這在兩種語言的語序相差較大時(shí)效果可能不會(huì)太好。如果在考慮語言模型和翻譯模型時(shí)將句法結(jié)構(gòu)或語義結(jié)構(gòu)考慮進(jìn)來,應(yīng)該會(huì)得到更好的結(jié)果。
統(tǒng)計(jì)方法的興起緣于上世紀(jì)九十年代以來互聯(lián)網(wǎng)的廣泛應(yīng)用,整個(gè)社會(huì)的信息呈現(xiàn)爆炸趨勢,機(jī)器翻譯的需求凸顯。與此同時(shí),人們對于提高機(jī)器翻譯的質(zhì)量和速度有了新的想法,基于“統(tǒng)計(jì)”的方法備受關(guān)注。參與這個(gè)領(lǐng)域研究的人數(shù)和發(fā)表論文的數(shù)量都呈指數(shù)型增長。統(tǒng)計(jì)機(jī)器翻譯技術(shù)本身也經(jīng)過了一個(gè)不斷發(fā)展的過程,統(tǒng)計(jì)集群翻譯的模型框架從早期的噪聲信道模型發(fā)展到目前普遍采用的對數(shù)線性模型,其中最主要的統(tǒng)計(jì)翻譯模型也從早期的基于詞的模型發(fā)展到了目前主流的基于短語的模型,以及目前很多人都在進(jìn)行的基于句法的統(tǒng)計(jì)翻譯模型研究。
目前,Google的在線翻譯已為人熟知,其背后的技術(shù)即為基于統(tǒng)計(jì)的機(jī)器翻譯方法,基本運(yùn)行原理是通過搜索大量的雙語網(wǎng)頁內(nèi)容,將其作為語料庫,然后由計(jì)算機(jī)自動(dòng)選取最為常見的詞與詞的對應(yīng)關(guān)系,最后給出翻譯結(jié)果。不可否認(rèn),Google采用的技術(shù)是先進(jìn)的,但它還是經(jīng)常鬧出各種“翻譯笑話”。其原因在于:基于統(tǒng)計(jì)的方法需要大規(guī)模雙語語料,翻譯模型、語言模型參數(shù)的準(zhǔn)確性直接依賴于語料的多少,而翻譯質(zhì)量的高低主要取決于概率模型的好壞和語料庫的覆蓋能力。基于統(tǒng)計(jì)的方法雖然不需要依賴大量知識(shí),直接靠統(tǒng)計(jì)結(jié)果進(jìn)行歧義消解處理和譯文選擇,避開了語言理解的諸多難題,但語料的選擇和處理工程量巨大。因此目前通用領(lǐng)域的機(jī)器翻譯系統(tǒng)很少以統(tǒng)計(jì)方法為主。
3.另辟蹊徑的基于實(shí)例的方法
與統(tǒng)計(jì)方法相同,基于實(shí)例的機(jī)器翻譯方法也是一種基于語料庫的方法,其基本思想由日本著名的機(jī)器翻譯專家長尾真提出,他研究了外語初學(xué)者的基本模式,發(fā)現(xiàn)初學(xué)外語的人總是先記住最基本的英語句子和對應(yīng)的日語句子,而后做替換練習(xí)。參照這個(gè)學(xué)習(xí)過程,他提出了基于實(shí)例的機(jī)器翻譯思想,即不經(jīng)過深層分析,僅僅通過已有的經(jīng)驗(yàn)知識(shí),通過類比原理進(jìn)行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標(biāo)語言短語,最后把這些短語合并成長句。對于實(shí)例方法的系統(tǒng)而言,其主要知識(shí)源就是雙語對照的實(shí)例庫,不需要什么字典、語法規(guī)則庫之類的東西,核心的問題就是通過最大限度的統(tǒng)計(jì),得出雙語對照實(shí)例庫。
基于實(shí)例的機(jī)器翻譯對于相同或相似文本的翻譯有非常顯著的效果,隨著例句庫規(guī)模的增加,其作用也越來越顯著。對于實(shí)例庫中的已有文本,可以直接獲得高質(zhì)量的翻譯結(jié)果。對與實(shí)例庫中存在的實(shí)例十分相似的文本,可以通過類比推理,并對翻譯結(jié)果進(jìn)行少量的修改,構(gòu)造出近似的翻譯結(jié)果。
這種方法在初推之時(shí),得到了很多人的推崇。但一段時(shí)期后,問題出現(xiàn)了。由于該方法需要一個(gè)很大的語料庫作為支撐,語言的實(shí)際需求量非常龐大。但受限于語料庫規(guī)模,基于實(shí)例的機(jī)器翻譯很難達(dá)到較高的匹配率,往往只有限定在比較窄的或者專業(yè)的領(lǐng)域時(shí),翻譯效果才能達(dá)到使用要求。因而到目前為止,還很少有機(jī)器翻譯系統(tǒng)采用純粹的基于實(shí)例的方法,一般都是把基于實(shí)例的機(jī)器翻譯方法作為多翻譯引擎中的一個(gè),以提高翻譯的正確率。
4.各有長短 融合使用
應(yīng)該說,無論是直譯法、轉(zhuǎn)換法、中間語法,還是實(shí)例法和統(tǒng)計(jì)法,都是各有長短。作為理性主義范疇,前面三者屬于基于規(guī)則的方法。它的典型缺點(diǎn)是技術(shù)粒度太大,即計(jì)算機(jī)語言無法完全描述實(shí)際語言組合中無限豐富的規(guī)則。
而作為經(jīng)驗(yàn)主義范疇,后面兩者屬于基于語料庫的方法,其典型缺點(diǎn)是數(shù)據(jù)稀疏。也就是說,由于語言的無限性,任何高性能的計(jì)算機(jī)都無法統(tǒng)計(jì)出所有短語的使用情況,總是會(huì)存在疏漏。
隨著這些方法的各自缺陷逐步為人們所認(rèn)知,自上世紀(jì)90年代以來,機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)越來越多地集成了不同的方法和策略,基于單一方法的產(chǎn)品越來越少。其中最具有代表性的無疑是尼倫伯格提出的多引擎機(jī)器翻譯系統(tǒng),即系統(tǒng)中集成多種機(jī)器翻譯的實(shí)現(xiàn)方法,每種方法構(gòu)成的翻譯模塊作為一個(gè)引擎,多個(gè)引擎協(xié)同配合,共同完成翻譯工作。
我們判斷:在今后的機(jī)器翻譯研究中,多種方法互相借鑒,互相融合的趨勢會(huì)越來越明顯?;谝?guī)則的方法與基于語料庫的方法相結(jié)合,機(jī)器翻譯與翻譯記憶相結(jié)合,很可能是今后研究發(fā)展的主流方向。