OCR-Konvertieren für die Fachübersetzung arabischer Texte

Wenn Sie schon einmal ein Übersetzungsangebot für Ihre auf Arabisch verfassten Dokumente angefordert haben, kennen Sie sicherlich die Antwort der meisten Übersetzungsprojektmanager.
Haben Sie kein editierbares Format?
Wir sind uns bewusst, wie störend diese Frage sein kann, vor allem für Kunden, die ihre Dokumente immer im Originalformat senden.
Jedoch ist es für Übersetzungsagenturen viel einfacher, schneller und kostengünstiger, Dateien zu verarbeiten und vorzubereiten, die in einem editierbaren Format gesendet werden.
Trotz allem wird Ihnen immer wieder ein Dokument in die Hände fallen, das gescannt und in ein PDF umgewandelt wurde. Es wird oft als das unpraktischste Format betrachtet, was jedoch nicht bedeutet, dass die Übersetzung unmöglich ist.
Dieser Blog stellt eine Reihe von Programmen vor, die Übersetzungsagenturen normalerweise für die Verwaltung und Verarbeitung auf Arabisch verfasster Dokumente einsetzen. Die Entscheidung fiel auf Arabisch, weil es eine der meistübersetzten Sprachen ist und nicht jedes Programm damit arbeiten kann; deshalb ist es erforderlich, sich genauer mit Textextraktionsprogrammen auseinanderzusetzen.
Índice de contenidos
Index of contents
Index du contenu
Inhaltsverzeichnis
Indice dei contenuti
1. Was bedeutet OCR?
Arbeiten wir mit Dateien, die beim Scannen als Bilder erscheinen und deren Text nicht per Maus auswählbar ist, müssen wir auf komplexere Textextraktionsprogramme zurückgreifen, im Gegensatz zu PDF-Dateien, bei denen der Text problemlos markiert werden kann. Hier sind zwei Beispiele, die den Unterschied sichtbar machen:
- PDF in einem bearbeitbarem Format
- PDF in einem nicht bearbeitbarem Format
Im ersten Beispiel ist der Text auswählbar , was darauf hinweist, dass jedes Textextraktionsprogramm – ob kostenfrei oder kostenpflichtig – den Text ohne Probleme extrahieren kann. Im zweiten Fall ist es nur möglich, einen Teil der PDF-Datei auszuwählen, nicht einzelne Textstellen, wodurch ein Textextraktionsprogramm die im Dokument enthaltenen Zeichen nicht erkennen kann.
Sie können es mit jedem Textextraktionsprogramm versuchen; alle werden Ihnen ähnliche Ergebnisse liefern.
Trotz der Vielzahl an Textextraktionsprogrammen auf dem Markt sind es vor allem die OCR-Programme, die den Unterschied ausmachen, wenn es darum geht, nicht bearbeitbare PDF-Dateien umzuwandeln. OCR ist die englische Abkürzung für „Optical Character Recognition“, was auf Deutsch „Optische Zeichenerkennung“ bedeutet. Wie der Name schon sagt, erkennen diese Programme nicht nur die bearbeitbaren Zeichen eines Dokuments, sondern können beispielsweise Texte in einem gescannten Dokument erkennen.
Und Sie denken sich vielleicht: Sehr gut, dann sind wir ja fertig. Nicht so schnell... denn so gut diese Programme auch sind, sie lassen noch viel zu wünschen übrig. Obwohl sie eine ungefähre Vorstellung vom Umfang der Arbeit bieten können, ist es nicht ratsam, sie bei der Fachübersetzung einzusetzen.
Im Folgenden finden Sie die Ergebnisse, die mit verschiedenen Textextraktionsprogrammen erzielt wurden.
2. Adobe Acrobat Pro DC
Zunächst möchten wir Ihnen Adobe Acrobat Pro DC vorstellen. Wenn Sie regelmäßig mit Computer arbeiten, sollte dieses Programm zu Ihrer Werkzeugkiste gehören, da Adobe nicht nur das Ansehen von PDFs ermöglicht, sondern auch das Erstellen, Bearbeiten, Organisieren von Seiten, Kommentieren, Ausfüllen von Formularen, Signieren und Korrigieren von Dokumenten im PDF-Format.
Ein weiterer Vorteil ist die Textextraktion, was die Textentnahme ermöglicht und sehr praktisch ist, da beim Öffnen eines PDF-Dokuments in diesem Programm nur zwei weitere Klicks nötig sind. In der Regel ist das unsere erste Wahl.
Wenn wir das nicht bearbeitbare Dokument aus dem obigen Beispiel betrachten, sieht das Konvertieren in Adobe Acrobat Pro DC so aus:
Ja, wirklich, wir lügen nicht. Obwohl es ein leistungsstarkes Programm ist, liefert es bei der Textextraktion von arabischen Texten enttäuschende Ergebnisse.
Einer der Gründe könnte die Tatsache sein, dass man nicht angeben kann, in welcher Sprache der Text verfasst ist, sondern dass das Programm ihn automatisch „erkennt“. Wenn man dem Programm die Spracherkennung erleichtert, sucht es nur in seiner Zeichendatenbank der Sprache X, anstatt in einer allgemeinen, mehrsprachigen Datenbank.
Wie dem auch sei, empfehlen wir dieses Programm nicht zur Textextraktion von auf Arabisch verfassten Texten.
3. OmniPage Ultimate
Das zweite Programm ist das OmniPage Ultimate.
Im Gegensatz zu Adobe ermöglicht OmniPage, die Sprache des Dokuments mit einem einfachen Rechtsklick auszuwählen. Was ist also das Problem? Arabisch erscheint nicht in der Sprachenliste. Wolof und Zulu sind vorhanden, aber Arabisch nicht. In solchen Fällen können Sie versuchen, die Option „Sprache automatisch erkennen“ zu nutzen, und Sie erhalten folgendes Ergebnis:
Wie Sie feststellen können, ist das ebenfalls nicht das, was wir suchen, obwohl sowohl Adobe als auch OmniPage in der Textextraktion für andere Sprachen hervorragend funktionieren.
3. Readiris 17
Die dritte Option zur Textextraktion unseres arabisch verfassten Textes und zum Konvertieren in ein bearbeitbares Format ist Readiris 17.
Es handelt sich um ein etwas komplexeres Programm als Adobe und OmniPage, das für die Textextraktion von Texten, die von rechts nach links geschrieben sind, wie im Fall des Arabischen, optimiert ist. Mit diesem Programm können Sie auf jeder Seite definieren, welcher Bereich Text und welcher Bereich Bilder, usw. enthält.
Zwar erfordert es im Vergleich zu anderen Programmen, die diese Seitenauswahloption nicht bieten, etwas mehr Vorbereitungszeit, aber angesichts des Ergebnisses ist offensichtlich, dass sich der Aufwand lohnt:
Es erzielt bessere Ergebnisse als die beiden anderen Programme, doch bei längeren Dokumenten reicht es immer noch nicht aus, da häufig unnötige Absatzumbrüche einfügt werden und andere Formatierungsfehler auftreten, die zusätzlichen Layout-Aufwand erfordern.
4. ABBYY FineReader
Zum Schluss möchten wie Ihnen das Programm vorstellen, das unserer Meinung nach das beste zur Textextraktion von nicht bearbeitbarem Text in arabischer Sprache ist: ABBYY FineReader.
Es handelt sich um ein kostenpflichtiges Programm, genau wie alle anderen, die in diesem Blog erwähnt werden. Es ermöglicht die präzise Angabe, welche Teile der Seiten des Dokuments Text, Bilder oder Tabellen sind.
Je genauer Sie Ihre Angaben machen, desto präziser wird das vom Programm erstellte Dokument sein. Mit minimalem Aufwand kam folgendes Ergebnis zustande:
Verglichen mit dem Originaldokument sind sie nahezu identisch:
Die Kostenschätzung und die Übersetzung dieses Dokuments bieten weitaus genauere Ergebnisse als jedes andere Programm, das in diesem Blog beschrieben wurde. ABBYY gilt als der klare Gewinner, wenn es um die Textextraktion von nicht bearbeitbaren arabischen Texten geht.
5. Fazit
Wie Sie sehen konnten, liefern nicht alle Programme, die die Textextraktion aus nicht bearbeitbaren Dateiformaten ermöglichen, die gleichen Ergebnisse – insbesondere bei Texten, die auf Arabisch verfasst wurden. In der Regel treten mit diesen Programmen keine Probleme auf, solange es sich nicht um besonders schwierige Formate oder seltene Sprachen handelt. Ganz im Gegenteil!
Es ist nicht ratsam, auf kostenlose Textextraktoren zurückzugreifen, da die Verwendung der Dateien nicht immer klar ist. Bei privaten, nicht vertraulichen Dokumenten ist dies weniger relevant, jedoch wird empfohlen, keine wichtigen Firmendateien mit vertraulichen Informationen auf kostenlose Webeiten hochzuladen.
Dies war ein kleiner Einblick in die Arbeit von Projektmanagern in der Fachübersetzungsbranche, die regelmäßig mit gescannten PDF-Dateien konfrontiert werden. Vor der Übersetzung einer PDFs sollte gefragt werden, ob das Unternehmen noch das Originalformat der Datei besitzt. Dies verringert nicht nur die Kosten, sondern sorgt auch für ein qualitativ besseres Endformat der Fachübersetzung. Ganz zu schweigen von dem enormen Gefallen, den Sie uns Projektmanagern damit erweisen!
Neuen Kommentar hinzufügen