计算机科学

首页 > 计算机科学

翻译记忆

2018-08-31 09:33:24     所属分类:程序设计工具

翻译记忆(亦称翻译内存翻译记忆库,translation memory,缩写为TM)是计算机程序软件的数据库,用来辅助人工翻译。

有时,使用翻译记忆库的软件也常被称为 TMM (Translation Memory Managers)或者译者的工作台(translator's Workstation)。

翻译记忆库多见于电脑辅助翻译工具、文字程式、专用术语管理系统(Terminology Management Systems)、多语辞典、甚至是纯机器翻译的输出之中。

一个翻译记忆单元包含了源语言的一个句段(segment)以及其所对应的翻译。这些句段可以是文字区块、章节、一个或是数个句子、或是词语。个别的字词常被视为专用术语来处理,一般而言不在翻译记忆的领域之中(即使翻译记忆库依旧可以包含单一字词为其翻译记忆单元)。

研究显示:市场上已有很多公司,使用了翻译记忆库的技术,来辅助建立多语言文件。

目录

  • 1 使用翻译记忆库
    • 1.1 主要的优势
    • 1.2 主要的障碍
  • 2 翻译记忆库(软件)的功能
    • 2.1 离线功能
      • 2.1.1 汇入
      • 2.1.2 分析
      • 2.1.3 汇出
    • 2.2 线上功能
      • 2.2.1 萃取
      • 2.2.2 更新
      • 2.2.3 自动翻译
      • 2.2.4 共同作业
    • 2.3 文字记忆
      • 2.3.1 作者(译者)记忆
      • 2.3.2 翻译记忆
  • 3 翻译记忆相关标准
    • 3.1 TMX
    • 3.2 TBX
    • 3.3 SRX
    • 3.4 GMX
    • 3.5 OLIF
    • 3.6 XLIFF
    • 3.7 TransWS
    • 3.8 xml:tm
  • 4 参见
  • 5 桌上翻译记忆软件
    • 5.1 自由且开放源代码的软件(FOSS)
    • 5.2 专属但是免费的软件
    • 5.3 专属且要付费的软件
  • 6 集中式翻译记忆
    • 6.1 自由软件
    • 6.2 非免费软件
  • 7 外部资料

使用翻译记忆库

译者首先提供一段来源文字(亦即要拿来被翻译的文字)给翻译记忆库,程式会先分析这段文字,试着在数据库里找寻既有的翻译区段是否与过去曾经翻译过的文字相符。如果找到相符的旧有翻译(legacy translation pairs),则会呈现出来给译者检阅。译者可以选择接受旧有的翻译、拒绝、或是加以修改。若加以修改,则修改的版本也会被记录并存进数据库里。

某些翻译记忆库系统只会搜寻 100% 相符的文字,也就是说:只会将新的来源文字与数据库内做精确的比对,只有完全相符的资料才会被提出。也有其他的系统会使用模糊比对原理来找寻相似的区段,并且会用特别的标记呈现给译者使其易于辨认。有一点很重要的是一般的翻译记忆系统只会从其数据库里搜寻来源语言。

完全无相似(no match)的文字区段将必须由译者手动的翻译。这些新翻译的文字区段会被存进数据库里,则未来的翻译将有可能因为来源文字重复出现而可以马上被采用。

翻译记忆库在文章字词重复相当高的情况之下将可运作的相当好,例如一些技术文件或是手册。翻译记忆库对于翻译一个从过去既有文件逐步增修的状况来说也很有帮助。一般而言,翻译记忆库在文学或是创意文件里不会被考虑采用,主要是因为这些类型的文章其重复性相当低。然而,也有人认为这些重复性极低的文字仍就值得加以搜集,例如在用语索引(concordance)的搜寻时便可派上用场。其他搜集翻译记忆库的帮助也可在品质验证和校阅时有所帮助(利用翻译记忆库,可以很简单的将来源语言与目标语言汇出,使其每行一对,并且以 tab 分隔来源与目标,便于确认有无未翻文字,或是使译者便于校阅)。

当翻译记忆库被持续的使用在适当的文字上一段时间之后,其将可为译者省下不少的工作量。

主要的优势

翻译记忆针对技术文件或是具有特定辞汇的文章来说是最合适的。其优势包含:

  • 确保文件完整的被翻译(翻译记忆不接受记忆区段里的目标语言无资料)
  • 确保翻译文件的一致性,包含通用定义、语法或措词、以及专用术语。这针对多个译者同时在翻译一个专案或文件时相当重要。
  • 使译者不须自行处理众多不同档案格式的档案,仅需面对翻译记忆库软件提供的界面或是单一的档案格式便可进行翻译。
  • 加速整体翻译的速度,即翻译记忆库已“记忆”先前已翻译过的素材,译者针对重复的文字仅需翻译一次。
  • 降低长时间的翻译专案的开销;以使用手册为例,警告讯息这类大量重复的文字仅需被翻译一次,便重复被使用。
  • 针对大型文件的专案而言,即使在首次翻译时翻译记忆库的使用效益并不明显,但当进行该专案的衍生专案(例如文件的修订版)时,翻译记忆库的使用便可大幅节省翻译的时间与金钱。

主要的障碍

使用翻译记忆所面临主要的困难与缺点包含如下:

  • “翻译记忆”的概念是基于:文句过去的翻译可以被“回收再利用”。然而,翻译的其中一个原则是,译者必须翻译文字所要表达的讯息(即意译),而不是翻译片段的句子。(常见翻译记忆的使用皆是以一句作为一个翻译单元(Translation Unit)或翻译区间(Translation Segment),使得翻译具有前后文关系的文件时容易变成是单独翻译多个句子后再加以组合)。
  • 翻译记忆软件并不是很容易的可以套用至既有的翻译或是本土化(Localization)的流程之中。为了要使翻译记忆的使用能够有更大的效益,翻译流程必须被重新规划。
  • 翻译记忆软件并不支援所有的文件格式,可用的文件过滤器不见得支援所有的档案类型。
  • 使用翻译记忆软件有其学习曲线必须克服,此外,软件本身尚须被客制化以发挥最大效益。
  • 若部分的翻译流程,被外包给不在公司的自由翻译家(Freelance Translator),这些译者必须拥有特定的软件,可以开启由翻译记忆软件所产生的档案格式,才能进行翻译。
  • 一些具备完整功能的翻译记忆软件往往每一个授权要价美金 500 至 2,500 元(以现今汇率计算约为新台币一万五~九万之间),其可视为一项值得考虑的投资。然而,有些程式开发者也制作免费或相当低价的所谓的译者版给单一的译者,使其可以开启由完整版所建立的档案以进行翻译。(市面上依旧有一些免费软件或共享软件提供了 TM 的功能,但目前皆未取得较大的市场占有率。)
  • 要将使用者过去的翻译汇入翻译记忆库里,以及相关的教育训练等所带来的开销,也变成一种值得考虑的投资。
  • 维护翻译记忆库,在多数的例子里,仍旧需要不少人工的步骤,而不当的维护将导致 TM 相符度的显著降低,其可用性与品质也相对受到影响。
  • 如同前述,翻译记忆软件不见得适用于字词或文句很少有重复的文件类型,或是在历次修订版中不会包含部分更新的状况。技术文件通常最适合使用翻译记忆,然而市场营销或是创意文句并不适合。
  • 翻译记忆库里所储存的记录并不保证正确;如果某一特定区段的翻译并不正确,则这不正确的翻译将会在下一次相同或近似的来源文字里再次被回收使用,这导致问题将会持续存在。

翻译记忆库(软件)的功能

以下说明翻译记忆的主要功能

离线功能

汇入

这功能是用来将外部的文字与翻译从文字档传输到翻译记忆库里。汇入功能的来源档案可以是原生档案,也可以是其他业界标准的翻译记忆档案。有时有些翻译记忆库是以其他形式储存,则必须透过一些格式转换才能进行汇入。

分析

分析的过程可以再细分为下面几项:

文句分析(Textual parsing)
辨识文句的标点符号相当重要,例如必须要能正确的辨认文句结尾的句点与缩写的句点,正确的判定文句结尾的位置。其他应视为文句段落的标点符号或是标记也必须尽量的被辨识出来,例如在多数的状况之下问号、惊叹号等也是文句结尾的判定之一,很多状况之下像是冒号、换行符号等也会被作为文句段落的辨识标记。在译者正式开始翻译之前通常都要先对文句进行标记,该动作是将不须被翻译的符号或是段落给予特定标记,将必须被翻译的文句给予另一种标记。
句法分析(Linguistic parsing)
句法分析旨在减少文句中基本形态字词的数量,做法是从文章中萃取出专用术语、词组等。
区段化(Segmentation)
其目的是找出最有用的翻译单元(Translation Unit)。区段化有点类似文句分析,他是在单一语言下进行,并使用可定义的规则来进行表面的分析,例如可定义哪些特定类型的符号或是标记应被纳入翻译单元里,哪些符号应被视为结束一个翻译单元的点。举例来说,一个冒号的前后文可以视为一个完整的段落(翻译单元),但在一些状况下冒号前后也会被拆解为两个翻译单元。假设译者手动改变了翻译单元,例如合并了某两个翻译单元为一个,或是将一个翻译单元拆解为两个或多个,则下一次的文件版本更新将会丧失这个翻译单元的相符性,因为下一版本仍就会以既定的规则来对文件进行区段化。
平行对齐(Alignment)
这是将来源语言与目标语言文字平行对应对齐的工作。区段化的标准将会影响平行对齐的效果,通常也得仰赖好的平行对齐算法来校正区段化的错误。
专用术语抽出
前一版本的词语辞典可被拿来使用,或是再行针对既有的文件抽取未知的术语。通常可以借由文字分析的统计来抽出这些词语,例如从文字的重复性来加以分析。

汇出

线上功能

萃取

更新

自动翻译

共同作业

文字记忆

“文字记忆”(Text Memory)是基于LISA OSCAR xml:tm 标准[失效链接]而定义的。文件记忆包含了作者(译者)的记忆与翻译记忆。

作者(译者)记忆

在创作(翻译)的过程中,每一个文字单元都会被赋予一个唯一的辨识码。文字单元是构成文句的一个子集。

翻译记忆

在翻译过程中,唯一个辨识码会被记忆下来,如此则目标语言的文件皆会被一一的对应到每一个文字单元的层级。如果来源文件随后被更改而异动,则文件里没有异动的文字单元将可直接的被转一到新的目标语言版本而不须译者而额外的检阅、翻译等互动。这是翻译记忆里的“精确”(exact)或是“完美”(perfect)相符的概念。“xml:tm”也提供了文件内对应汇入与模糊比对的机制。

翻译记忆相关标准

TMX

Translation Memory Exchange format(翻译记忆交换格式),TMX标准实现不同翻译软件供应商之间翻译记忆库的互换,为翻译社群所采纳的汇入汇出翻译记忆的最佳办法。目前最新的版本是1.4b,允许从TMX资料重建来源文件和目标文件。

TBX

Termbase Exchange format(Termbase交换格式),该标准允许含有详细词汇资讯的术语资料作互换。TBX的数据结构架构由ISO 12620、ISO 12200、以及ISO Committee Draft 16642(别名TMF,Terminological Markup Framework)所提供。ISO 12620 提供完整定义的“资料类别”清单,其中包含可做为项目类型或预定值的标准化名称。ISO 12200 (亦称为MARTIF) 提供TBX核心结构的基础。

SRX

Segmentation Rules Exchange format(分段规则交换格式)。SRX的目的是加强TMX标准,以便可以更有效率地使用在应用程序之间交换的翻译记忆资料。

GMX

GILT Metrics. GILT stands for 全球化(Globalization)、国际化(Internationalization)、本地化(Localization)与翻译(Translation)。

OLIF

Open Lexicon Interchange Format.

XLIFF

XML Localisation Interchange File Format(XML本地化交换档案格式)。其目的是提供所有当地语系化提供者都能了解的单一档案交换格式。XLIFF是业界使用XML格式来交换资料时的惯用方式。

TransWS

Translation Web Services(翻译线上服务).

xml:tm

xml:tm

参见

  • 翻译
  • 语料库
  • Eurodicautom
  • 电脑辅助校阅

桌上翻译记忆软件

一般译者通常使用桌上翻译记忆工具来完成翻译工作。桌上翻译记忆工具是适用于翻译用途的工具,就如同文书处理程式是适用于写作的工具。

自由且开放源代码的软件(FOSS)

  • OmegaT,跨平台的电脑辅助翻译工具。没有语言限制(来源和目标)。直接支援MS Office 2007格式、OpenOffice.org格式、OpenDocument Format(ODF)、DocBook XML、(X)HTML、HTML Help Compiler files(HTML帮助编译文件)、纯文字文件、java .properties、PO。授权形式:GPL。需求环境:Java JRE。
  • Open Language Tools,跨平台的电脑辅助翻译工具,没有语言限制(来源和目标)。以自有格式(compressed XLIFF 1.0)运作,提供多种格式相互转换:HTML、DocBook SGML、JSP、XML(需要设定档)、OpenOffice.org 格式、Open Document Format、纯文字、PO、java .properties、Java RessourceBundle、Mozilla .DTD 资源档、授权形式:CDDL。需求环境:Java JRE
  • Transolution,跨平台的电脑辅助翻译工具。没有语言限制(来源和目标)。支援XLIFF档案,授权形式:GPL。需求环境:Python。

专属但是免费的软件

  • Appletrans, Mac OSX computer aided translation tool. No language limitations (source and target). Supports RTF, HTML, XML. No access to source.
  • MemoQ 4Free, Windows computer aided translation tool. Some languages not supported in source (including Japanese, Chinese, Korean). Supports MS formats (.doc, .xls, .ppt, .rtf), HTML, plain text, TTX, Framemaker .mif files. Free of charge version available, no access to source. Requires .NET 2.0
  • Wordfast Anywhere- 是Wordfast的云端版本的翻译记忆的软件。支持多种格式文件(包括PDF),可以免费注册使用。

专属且要付费的软件

  • across - Free for bona-fide freelance translators in exchange for listing in Across' directory
  • AidTrans Studio Professional - 提供免费的beta版本下载,大约2000年以后已经无更新版本。
  • Araya Translation Editor 与相关工具
  • Déjà Vu - 提供试用版(Evaluation version)
  • FastHelp - Windows Help 说明档产生器
  • Heartsome Translation Suite - 提供全功能试用版和有限功能的免费版
  • Linear B Searchable Translation Memories
  • Lingobit Localization Tool - 具有翻译记忆的软件当地语系化工具
  • MetaTexis - 提供试用版(Evaluation version) - 需要安装在Microsoft Word上
  • MLTS - 支持翻译阿拉伯语。
  • MemoQ Translator Pro - 提供免费的自由译者版本(freelancer's version)
  • SIMILIS (2nd Generation Translation Memory)
  • III - 支持多种操作系统(Cross-platform)及XLIFF 1.2标准
  • Logoport™ Lionbridge公司的线上多人协同作业CAT工具
  • MultiCorpora MultiTrans
  • MultiLing Fortis
  • Sisulizer Localization Tool - 具有翻译记忆功能的软件当地语系化工具
  • STAR Transit
  • 1 - 提供免费的自由译者版本(freelancer's version),称为SDLX Edit Lite(仅限搭配TMS或透过LSP存取)
  • TRADOS
  • TransAssist
  • Translatum
  • T-Remote Memory
  • Wordfast - 具有功能限制的共享软件(shareware)版本,只有在翻译记忆中储存超过500个翻译单位(translation unit)时才需要注册
  • XTM[失效链接] - Totally Open Standards Based translation memory using Lisa OSCAR xml:tm standard and supporting all other XML based Open Standards including SRX, Unicode Standard Annex #29-9, XLIFF 1.2, GMX-V, TMX, DITA and W3C ITS.

集中式翻译记忆

集中式翻译记忆系统将TM储存于中央服务器。

自由软件

  • Lingotek


非免费软件

  • AidTrans Studio Enterprise
    • 提供免费的Beta版下载,目前仍处于Beta测试阶段。翻译记忆与术语服务器。
  • XTM[失效链接]
  • Araya
    • 以XML-RPC为基础的翻译记忆
  • Idiom WorldServer
    • Idiom WorldServer Globalization Management System (GMS) -- hosted or standalone
  • MemoQ LSP5 / Enterprise
    • Kilgray MemoQ Integrated Localization Environment (ILE) LSP5 or Enterprise edition -- standalone
  • Trados
  • Déjà Vu DVX Workgroup
  • Transware[失效链接]
  • GlobalSight -- undergoing merger with Transware
    • Transware Ambassador (formerly GlobalSight Ambassador)
  • ESTeam Translator

外部资料

  • Translating XML Documents with xml:tm - a revolutionary new approach to translation memory
  • xml:tm - A Radical New Approach to Translating XML Documents
  • How to Leverage the Maximum Potential of XML for Localization
  • Coping with Babel: How to localize XML
  • Articles on the TMX translation memory standard
  • Translation memories
  • Benchmarking translation memories
  • Translation Memory Software
  • Extending translation memories (PDF 文件)
  • Translation technology: Machine Translation and TM
  • LISA/OSCAR 2004 Translation Memory Survey
  • LISA/OSCAR 2002 Translation Memory Survey
  • Evolution toward TM
  • XML in localisation: Reuse translations with TM and TMX
  • Imperial College London Translation Memories Survey 2006 (PDF 文件)
  • Ecolore survey of TM use by freelance translators (Word 文件)[失效链接]
  • Powerful English-Russian parallel texts corpora compiled mostly on the basis of translation memories

上一篇:编译器
下一篇:Cygwin
相关推荐