|
|

Segmentierung in der Übersetzung und das SRX-Standardformat

Veröffentlicht am: 15/11/2024
La segmentación en traducción y el formato estándar SRX

Eine gute Textsegmentierung basiert auf vielen Faktoren, die den Unterschied zwischen einem guten und einem schlechten Projektmanagement ausmachen. Dazu gehören insbesondere: Budget, Verwaltung von Translation Memorys und Übersetzungsqualität.

In diesem Blog werden wir einige dieser Themen ansprechen, von den allgemeineren Aspekten der Segmentierung bis hin zu spezifischeren und technischen Fragen.

Was ist Segmentierung?

Wenn wir eine Datei zur Übersetzung in ein CAT-Tool wie Trados Studio oder memoQ einfügen, verarbeitet das Tool den Text, indem es ihn in Segmente unterteilt. Jedes dieser Segmente entspricht in der Regel einem Satz, der vom Tool anhand von Satzzeichen, Ausrufe- und Fragezeichen erkannt wird. 

Sobald der Text segmentiert ist, besteht die Aufgabe des Übersetzers darin, eine Übersetzung für jedes Segment bereitzustellen, das auch als Übersetzungseinheit bezeichnet wird. Dies ist entscheidend für die Arbeit mit Translation Memorys, da diese es ermöglichen, Übereinstimmungen zu identifizieren, d.h. Übersetzungseinheiten, die bereits im Speicher vorhanden sind oder im Text wiederholt werden, sodass die Übersetzung dieser Segmente automatisiert werden kann.

Wie bereits erwähnt, ist das grundlegende Kriterium zur Definition der Segmentierung eines Textes die Zeichensetzung. In Wirklichkeit sind die Segmentierungsregeln komplexer und jedes Tool kann sie auf unterschiedliche Weise festlegen. Zum Beispiel bestimmt SDL Trados Studio sie anhand des Translation Memorys, das auf das Projekt angewendet wird, während memoQ sie direkt auf das Projekt anwendet. Darüber hinaus bietet jedes Tool seine eigenen Möglichkeiten, diese Regeln anzupassen, die wir später detailliert erläutern werden.

Im Allgemeinen bestimmen Segmentierungsregeln zwei Aspekte: Zum einen die Satzzeichen, die das Ende eines Segments markieren, und zum anderen die Ausnahmen von diesen Regeln.

Um das typischste Beispiel zu nennen: Wenn wir festlegen, dass nach einem Punkt ein Segmentwechsel erfolgen soll, können wir eine Reihe von Abkürzungen angeben, die von einem Punkt gefolgt werden, damit das Tool das gleiche Segment bis zum nächsten Punkt beibehält.

Abschließend sei darauf hingewiesen, dass Segmentierungsregeln eine sprachliche Ressource sind. Sie beinhalten eine Reihe von gemeinsamen Elementen für alle Sprachen, wie z.B. den Punkt am Ende jedes Segments, aber andere sind spezifisch für jede Sprache und müssen individuell angepasst werden.

Standardisierung der Segmentierungsregeln: das SRX-Format

Segmentation Rules eXchange (SRX) ist ein offener XML-basierter Standard, der eine gemeinsame Sammlung von regulären Ausdrücken zur Definition und zum Austausch von Segmentierungsregeln bereitstellt. Ähnlich wie das TMX-Format wurde es von der Localization Industry Standards Association (LISA) entwickelt und wird seit 2011 von der Global and Localization Association (GALA) gepflegt. Es entstand aus dem Problem, dass ein CAT-Tool Texte anders segmentieren konnte als das Translation Memory, wodurch dieses nicht effektiv angewendet werden konnte.

Das SXR-Format basiert auf regulären Ausdrücken, die zur Definition der Segmentierungsregeln verwendet werden. Reguläre Ausdrücke sind Muster, die auf der Unicode-Codierung basieren und es ermöglichen, eine Reihe von Zeichen innerhalb eines Textes zu bestimmen und zu lokalisieren. So ermöglichen uns reguläre Ausdrücke im Fall von Segmentierungsregeln, dem Programm mitzuteilen, dass es Kleinbuchstaben, Großbuchstaben, Klammern und Anführungszeichen, Zahlen und jedes Satzzeichen lokalisieren soll und diese als Kriterium verwendet, um zu bestimmen, wann ein Segmentwechsel erfolgen soll.

Einige Programme bieten jedoch vereinfachte Optionen, um diese Zeichen einzugeben, ohne die Notwendigkeit komplexer regulärer Ausdrücke. Diese können immer verwendet werden, um eine fortgeschrittenere Konfiguration der Segmentierungsregeln vorzunehmen.

Neben der Möglichkeit, die Segmentierungsregeln zu ändern, ermöglicht die Implementierung des SRX-Standards in CAT-Tools den Export und Import von Dateien, um dieselben Segmentierungsregeln in einem anderen Projekt oder Tool anzuwenden. Im Folgenden werden wir die Möglichkeiten, die das SRX-Format in zwei der wichtigsten Tools bietet, genauer betrachten: SDL Trados Studio und memoQ.

Implementierung des SRX-Formats in Trados Studio

Trados Studio hat den SRX-Standard nicht implementiert, jedoch segmentiert das Programm beim Öffnen einer Datei zur Übersetzung in SDL Trados Studio basierend auf den Standard-Segmentierungsregeln.

Um die Segmentierungsregeln in SDL Trados Studio anzupassen, klicken wir mit der rechten Maustaste auf das Translation Memory und öffnen das Konfigurationsfenster. Dort gehen wir zu den Sprachressourcen, und es werden uns die Konfigurationsoptionen für jede von ihnen angezeigt. Wir suchen die Spalte für die Segmentierungsregeln und öffnen den Editor für die Sprache, deren Regeln wir anpassen möchten.

Anschließend wird uns eine Option für absatzbasierte Segmentierung angezeigt, die die absatzspezifischen Markierungen jedes Dateityps verwendet, sowie eine satzbasierte Segmentierungsoption, die wir ändern können. Die standardmäßig angewendeten Segmentierungsregeln sind der Punkt, der Doppelpunkt und die Frage- und Ausrufezeichen, einschließlich der Ausnahme, dass sie von Kleinbuchstaben gefolgt werden.

In diesem Panel können wir diese Regeln entfernen oder bearbeiten, indem wir Zeichen vor und nach dem Wechsel hinzufügen sowie Ausnahmen mithilfe regulärer Ausdrücke. Auch neue Regeln können auf dieselbe Weise hinzugefügt werden.

In Trados Studio sind die Segmentierungsregeln daher mit dem Translation Memory und nicht mit einem Dateityp verbunden, weshalb es nicht möglich ist, sie in einer SRX-Datei zu importieren und zu exportieren.

Implementierung des SRX-Formats in memoQ

Die Segmentierungsregeln in memoQ sind standardmäßig festgelegt und können für jedes spezifische Projekt geändert werden. Dazu öffnen wir das Projekt und greifen auf das Optionsfenster zu. Dort wählen wir das Symbol für Segmentierungsregeln — die Schere — und wählen das Regelset für die gewünschte Sprache. Es öffnet sich ein Menü, in dem wir diese Regeln ändern können. Wir finden eine einfache Ansicht, in der wir Satzzeichen, Eigennamen, die mit Kleinbuchstaben beginnen, und Abkürzungen, gefolgt von Zahlen, hinzufügen können. In der erweiterten Ansicht finden wir die Option, reguläre Ausdrücke für eine komplexere Konfiguration der Segmentierungsregeln zu verwenden.

Im selben Fenster finden wir die Option, eine SRX-Datei zu exportieren oder zu importieren, um dieselben Segmentierungsregeln in anderen Projekten und Tools zu verwenden. Es ist wichtig zu beachten, dass beim Exportieren einer SRX-Datei Informationen über die Ausnahmen von den Segmentierungsregeln verloren gehen können, da diese in memoQ komplexer sind als die im SRX zulässigen.

Vielleicht interessieren Sie sich auch für folgende Artikel:

Bild des Benutzers Iván Vázquez
Iván Vázquez

Er hat einen Abschluss in Übersetzen und Dolmetschen von der Universität Granada, mit Spezialisierung auf Französisch und Chinesisch. Er hat an verschiedenen literarischen Übersetzungen und Web-Übersetzungsprojekten in Spanien und Frankreich gearbeitet. Derzeit ist er Assistent für Projektmanagement und Autor von Web-Inhalten bei AbroadLink

Neuen Kommentar hinzufügen