Austausch von Translation Memorys: das TMX-Format

Das TMX-Format hat sich als Standard für den Austausch von Translation Memorys zwischen Übersetzungssystemen etabliert – selbst bei unterschiedlichen Betriebssystemen. Im Jahr 2007, als unser aktueller Marketingdirektor in Multilingual den Artikel schrieb: „Testing the implementation of the TMX standards“, boten die meisten Programme die Möglichkeit, das txt-Format zu verwenden, das in der damaligen Version von RWS Trados Studio erstellt wurde.
Heute wäre dieser Artikel nicht mehr sinnvoll. Lesen Sie weiter, um Ihr Wissen über einen der am weitesten verbreiteten Standards der Branche zusammen mit dem Format XLIFF zu vertiefen.
Índice de contenidos
Index of contents
Index du contenu
Inhaltsverzeichnis
Indice dei contenuti
Was ist das TMX-Format?
Das Translation Memory eXchange-Format ist ein offener Standard, der auf XML basiert und für die Speicherung von Translation Memorys (TM) und deren Austausch zwischen verschiedenen computergestützten Übersetzungstools (CAT) entwickelt wurde. Ein Translation Memory ist eine Datenbank, die zuvor übersetzte Textsegmente speichert, damit sie in zukünftigen Übersetzungen wiederverwendet werden können. Das ermöglicht es, die Arbeit zu beschleunigen und die Konsistenz von Stil und Terminologie zu gewährleisten, sei es bei 100% Übereinstimmungen oder Teilübereinstimmungen (was im Fachjargon oft als fuzzy matches bezeichnet wird).
Das TMX-Format war eines der Vermächtnisse von LISA (Localization Industry Standards Association) vor deren Auflösung im Jahr 2011 und wurde von vielen Übersetzungs- und Lokalisierungswerkzeugen weitgehend übernommen. Sein Hauptziel ist es, eine Standardisierung bei der Speicherung von Translation Memorys bereitzustellen, um deren Interoperabilität zwischen verschiedenen Plattformen zu erleichtern.
Struktur des TMX-Formats
TMX-Dateien basieren auf XML, was die Verwendung von Tags zur Kodierung der Informationen impliziert, damit diese sowohl von Menschen als auch von Maschinen gelesen werden können. Die Struktur besteht in der Regel aus einer Kopfzeile (header auf englisch) und einem oder mehreren Abschnitten oder Hauptteilen (auf englisch body), die die Übersetzungseinheiten (TU) enthalten, sowie die einzelnen, zuvor übersetzten Textsegmente.
Die Kopfzeile enthält beschreibende Informationen zum Translation Memory, darunter Name, Ausgangs- und Zielsprachen sowie zusätzliche Details wie das verwendete Tool, das Erstellungsdatum und eventuelle Überarbeitungen.
In den restlichen Abschnitten befinden sich die TUs, die sowohl das Originaltextsegment als auch seine Übersetzung in verschiedene Sprachen sowie Format-Tags umfassen, je nach Implementierung des TMX-Formats, auf die später eingeangen wird. Zusätzlich können weitere Informationen wie der Nutzungskontext des Segments oder Anmerkungen des Übersetzers enthalten sein.
Mehrsprachige und zweisprachige TMX-Dateien
Wie bereits erwähnt, können TMX-Dateien mehrsprachig oder zweisprachig sein, abhängig von der Anzahl der enthaltenen Zielsprachen :
- Zweisprachige TMX-Dateien: enthalten Textsegmente in der Ausgangs- und der Zielsprache. Sie sind am weitesten verbreitet und kommen hauptsächlich in spezifischen Übersetzungsprojekten zum Einsatz.
- Mehrsprachige TMX-Dateien: enthalten Textsegmente in mehreren Sprachen und ermöglichen die Verwaltung und Wiederverwendung von Übersetzungen in mehreren Sprachen innerhalb einer einzigen Datei. Diese sind nützlich für große Lokalisierungsprojekte.
Metadaten in einer TMX-Datei
Zusätzlich zu den übersetzten Textsegmenten können TMX-Dateien verschiedene Arten von Metadaten enthalten, die zusätzliche Informationen über die Übersetzungseinheiten bereitstellen und die effektive Verwaltung und Nutzung der Translation Memorys erleichtern. Einige davon haben wir bereits erwähnt, aber hier folgt eine vollständige Liste der bekanntesten:
- Ausgangs- und Zielsprache: gibt die Sprachen des ursprünglichen Segments und seiner Übersetzung an. Dies ist entscheidend, um sicherzustellen, dass die Übersetzungseinheiten korrekt in mehrsprachigen Kontexten verwendet werden, indem nur die relevanten gefiltert und angewendet werden, die mit den spezifischen Sprachen des aktuellen Projekts übereinstimmen.
- Autor und Erstellungsdatum: gibt an, wer das Segment erstellt hat und wann, was die Zuordnung von Verantwortlichkeiten, die Qualitätssicherung der Übersetzungen und die Kommunikation zwischen Fachleuten erleichtert.
- Kunde und Projekt: relevante Informationen über den Kunden und das Projekt, das mit das Translation Memory verbunden ist. Bei der Arbeit an einem spezifischen Projekt können die Übersetzungseinheiten, die zuvor für denselben Kunden verwendet wurden, priorisiert werden, um terminologische und stilistische Konsistenz zu gewährleisten.
- Übersetzungsstatus: gibt an, ob die Übersetzung überprüft, genehmigt oder noch zur Überprüfung aussteht, was hilft, den Arbeitsablauf des Übersetzungsunternehmens zu verwalten.
- Notizen und Kommentare: es können zusätzliche Anmerkungen hinzugefügt werden, die den zukünftigen Übersetzern und Prüfern bei der Entscheidungsfindung helfen.
- Kontext und Segmentierung: Informationen über den Kontext des Segments innerhalb des Quelltextes, was hilft, Kohärenz und Genauigkeit in zukünftigen Übersetzungen zu bewahren.
Implementierung des TMX-Formats
Die Implementierung des TMX-Formats in diverse Übersetzungssoftwares erfolgt auf drei Ebenen, je nachdem, welche Tags und Formatcodes von der Software erkannt werden. Mit anderen Worten: Die verschiedenen Implementierungsstufen legen fest, wie komplex und umfangreich die Informationen in einer Datei gespeichert werden können. Diese Stufen sind:
- Stufe 1 (Nur Klartext): Es handelt sich um die grundlegendste Implementierungsstufe, die sicherstellt, dass eine Kompatibilität zwischen verschiedenen CAT-Tools gewährleistet ist. Es enthält minimale Informationen, wie die Paare von Textsegmenten in der Ausgangs- und Zielsprache. Es ist die einfachste Option, um Entsprechungen zwischen den Segmentpaaren zu finden, da das Vorhandensein von Tags das Lesen der Segmente nicht beeinträchtigt.
- Stufe 2 (Meta-Marker): Diese Stufe berücksichtigt Tag-Informationen im TMX-Format und enthält Details zum Textformat, wie fett, kursiv oder unterstrichen, wodurch eine genauere Darstellung der Formatierungen gewährleistet wird.
- Stufe 3 (Native Marker): Dies ist die fortschrittlichste Stufe und ermöglicht die vollständige Erkennung sowohl von TMX-Tags als auch des nativen Codes jedes Elements, ohne dass Informationen verloren gehen. Dies ermöglicht es, die genaue Struktur und Formatierung des Originaldokuments exakt in der Übersetzung nachzubilden, indem die TMX-Datei die Formatierungsdetails berücksichtigt.
Kompatibilitätsprobleme von TMX-Formaten in CAT-Tools
Obwohl es ein offener Standard ist, können TMX-Dateien Kompatibilitätsprobleme zwischen verschiedenen CAT-Tools aufweisen. Einige der häufigen Probleme umfassen:
- Unterschiedliche Implementierungsstufen: Nicht alle CAT-Tools sind in der Lage, denselben Datentyp innerhalb einer TMX-Datei korrekt zu interpretieren, was zu einem potenziellen Verlust von wichtigen Daten führt, wenn zwischen verschiedenen Tools gewechselt wird.
- Unterschiede in der XML-Analyse: Einige Übersetzungstools verwenden keine Standard-XML-Parser. Daher können sie möglicherweise Probleme haben, bestimmte TMX-Dateien zu unterstützen.
- Erzeugung ungültiger TMX-Dateien: Selbst wenn das XML korrekt gelesen werden kann, sind bestimmte Tools nicht in der Lage, gültige TMX-Dateien zu erstellen, was Probleme beim späteren Lesen durch andere Programme verursacht.
- Neue XML-Versionen: Es gibt immer noch Tools, die mit älteren XML-Versionen arbeiten, sodass sie neuere TMX-Dateien nicht lesen können.
- Mehrsprachige TMX: Einige Tools beschränken die Anzahl der zulässigen Sprachen auf zwei und unterstützen keine mehrsprachigen TMX-Dateien.
Fazit
Das TMX-Format ist ein unverzichtabares Tool sowohl für professionelle Fachübersetzer als auch für Übersetzungsunternehemen, da es eine standardisierte Methode zur Speicherung und zum Austausch von Translation Memorys bietet. Es ermöglicht die reibungslose Zusammenarbeit zwischen Übersetzern, unabhängig davon, welches CAT-Tools sie verwenden. Benutzer sollten sich jedoch der verschiedenen Implementierungsstufen bewusst sein und mögliche Kompatibilitätsprobleme berücksichtigen, um den Verlust von Informationen zu vermeiden. Zudem kann das Wissen darüber, wie TMX-Dateien bearbeitet und verwaltet werden und welche Informationen sie enthalten, oft dabei helfen, den Übersetzungsprozess zu optimieren, Zeit zu sparen und die Qualität unserer Arbeit zu verbessern.
Vielleicht interessieren Sie sich auch für folgende Artikel:

Er hat einen Abschluss in Übersetzen und Dolmetschen von der Universität Granada, mit Spezialisierung auf Französisch und Chinesisch. Er hat an verschiedenen literarischen Übersetzungen und Web-Übersetzungsprojekten in Spanien und Frankreich gearbeitet. Derzeit ist er Assistent für Projektmanagement und Autor von Web-Inhalten bei AbroadLink
Neuen Kommentar hinzufügen