Mindmap mit Barrierefreiheitsicon in der Mitte. Drumherum Icons zu den 5 Fundamentals. Das Icon "Maschinen-lesbarer Text" ist durch Größe und Farbe hervorgehoben.

Techniken für PDF-Barrierefreiheit: Teil 2

geschrieben von

Markus Erle

veröffentlicht

11. Oktober 2023

Markus Erle, CEO und Co-Founder von axes4, ist Chair der internationalen Arbeitsgruppe, welche Techniken für PDF-Barrierefreiheit ausarbeitet. In einer mehrteiligen Serie wirft er einen Blick auf die sogenannten Basisanforderungen ("Fundamentals"). Diese gelten für alle barrierefreien PDF-Dokumente.

Basisanforderung 2: Textinhalte sind maschinenlesbar

Wo liegt das Problem?

Maschinenlesbare Textinhalte sind eine wesentliche Grundanforderung an barrierefreie PDF-Dokumente. Nur dann kann Software diese Inhalte für Nutzer:innen mit speziellen Anforderungen in alternativer Form präsentieren - beispielsweise als Audio- oder Brailleoutput.

"Was kann da schon schief gehen?", werden sich viele denken. Alle, die schon mal versucht haben, Textinhalte aus einem PDF wiederzuverwenden, wissen, dass es hier viele Fallstricke gibt: nicht markierbarer Text, unlesbarer Zeichensalat beim Einfügen des herauskopierten Textes und vieles mehr.

Die zweite Basisanforderung der PDF Accessibility Techniques fasst deswegen alle Grundanforderungen im Hinblick auf maschinenlesbaren Text zusammen.

Unterscheiden zwischen "echtem Text" und "Schein-Text"

Erst einmal müssen wir zwischen Textinhalten ("echter Text") und Nicht-Textinhalten, die jedoch als Text wahrgenommen werden sollen ("Schein-Text"), unterscheiden.

Bei "echtem Text", also Inhalten, die als Text codiert sind, gibt es für die Maschinenlesbarkeit zwei Basisanforderungen:

Für jedes Zeichen ist der entsprechende Unicode-Wert ableitbar. Wenn dies erfüllt ist, dann lässt sich das Zeichen so extrahieren und weiterverarbeiten, dass es seinem visuellen Erscheinungsbild entspricht.
Für jedes Zeichen ist die Sprache festgelegt, in welcher es wahrgenommen und verarbeitet werden soll (beispielsweise von Software wie Screenreadern oder Rechtschreibprüfprogrammen).

Andere Textinhalte wie Lesezeichen oder Alternativtexte sind per definitionem bereits maschinenlesbar.

Handelt es sich um "Schein-Text", dann ist es erforderlich diesen erst einmal als codierten Text zur Verfügung zu stellen. Dazu gibt es in PDF die folgenden Mechanismen:

Mechanismus 1: Erstellen von unsichtbarem Text (z. B. mit OCR-Programmen)
Mechanismus 2: Hinzufügen von ActualText zu einer als Span markierten Inhaltssequenz (ActualTag auf Marked Content-Ebene). Dies kann für ein einzelnes Zeichen bis hin zu einem oder mehreren Wörtern umgesetzt werden. Zu bevorzugen ist jedoch immer die kleinstmögliche Einheit.
Mechanismus 3: Hinzufügen von ActualText zu einem Span-Tag (ActualText auf Tag-Ebene). Auch dies kann für ein einzelnes Zeichen bis hin zu einem oder mehreren Wörtern umgesetzt werden. Auch hier ist immer die kleinstmögliche Einheit zu bevorzugen.

In allen 3 Fällen sollte der hinzugefügte codierte Text auf alle Fälle seinem visuellen Erscheinungsbild entsprechen. Falls erforderlich können die 3 Mechanismen auch kombiniert eingesetzt werden.

Beispiele für solche "Schein-Texte", die nur visuell als Textinhalte erscheinen, sind:

Eingescannte Dokumente
Zeichen oder Wörter, die nur als Bilder im Dokument vorhanden sind

Sobald "Schein-Texte" auch als codierter Text vorhanden sind, greifen die beiden Anforderungen der Maschinenlesbarkeit: Unicode-Zuordnung und Sprachfestlegung.

Wie lässt es sich prüfen?

Die Anforderungen an maschinenlesbaren Text lassen sich zum einen direkt prüfen:

Ist für jedes Zeichen der korrekte Unicode-Wert zugewiesen? Dies kannst du beispielsweise in axesPDF über die Funktion "Unicode-Zuordnung bearbeiten" im Reiter "Schriften" prüfen und korrigieren. Dazu werden wir noch einen separaten Artikel schreiben.
Ist für jedes Zeichen die natürliche Sprache zugeordnet? Dies kannst du ebenfalls in axesPDF prüfen. Beachte jedoch, dass es mindestens 3 Stellen geben kann, über die du die Sprache festlegen kannst (auf Dokumentebene, auf Tag-Ebene, auf Marked Content-Ebene). Auch dazu werden wir noch einen detaillierten Artikel verfassen.
Gibt es Elemente, für die ActualText hinterlegt ist und entspricht dieser dem visuellen Erscheinungsbild? Du kannst dies in axesPDF prüfen, indem du dir zu den ausgewählten Tag- und Marked Content-Elementen in der Strukturansicht jeweils die Eigenschaften anzeigen lässt. Dort findest du auch den Eintrag für ActualText. Auch dazu werden wir noch einen detaillierten Artikel verfassen.

Indirekt lässt sich maschinenlesbarer Text oft schneller prüfen, liefert aber dafür keine 100%ige Zuverlässigkeit. Für eine erste Einschätzung genügt es jedoch in den meisten Fällen. Empfehlenswerte Werkzeuge sind hier die Screenreadervorschau-Funktionen in axesPDF oder den PDF Accessibility Checker PAC. Am besten du beginnst erst einmal mit einer indirekten Prüfung und kannst so auch prüfen, ob es "Schein-Texte" gibt, die nicht zusätzlich noch als codierter Text vorliegen. Die identifizierten Problemstellen schaust du dir dann noch genauer mit Hilfe der direkten Prüfungen an.