- Videos brauchen Untertitel (WCAG 1.2.2), Audiodeskription (1.2.5) und für reine Audioinhalte ein Transkript (1.2.1). Alle drei Anforderungen sind verschieden und ersetzen sich nicht gegenseitig.
- PDFs werden erst barrierefrei, wenn der Tag-Baum vollständig und in korrekter Lesereihenfolge vorliegt. Ein optisch schönes PDF ohne Tags ist für Screenreader stumm.
- Automatisch generierte Untertitel und ungeprüfte Word-Exporte erfüllen die Anforderungen fast nie ohne manuelle Nacharbeit.
- Das kostenlose Prüfwerkzeug PAC 2026 deckt die meisten PDF-Fehler auf Knopfdruck auf. Für Videos gibt es keinen vergleichbaren Automatismus, dort ist manuelle Prüfung Pflicht.
Worum es geht
Eine professionell gestaltete InDesign-Broschüre ohne Tag-Baum besteht keine Barrierefreiheitsprüfung, egal wie hochwertig das Layout ist. Ein YouTube-Unternehmensfilm mit automatisch generierten Untertiteln erfüllt Erfolgskriterium 1.2.2 fast nie ohne manuellen Korrekturlauf. Beides sind keine theoretischen Szenarien: Sie begegnen uns in jedem zweiten Projekt, das wir als Audit begleiten. Die technische Zugänglichkeit von Videos und PDFs ist lösbar, aber sie erledigt sich nicht von selbst.
Seit dem 28. Juni 2025 ist das keine Frage des guten Willens mehr. Das Barrierefreiheitsstärkungsgesetz (BFSG) gilt für digitale Produkte und Dienstleistungen, die auf dem Markt angeboten werden, und damit auch für Videos und Dokumente, die öffentlich zugänglich sind. Die technischen Maßstäbe setzt die WCAG 2.2 auf Konformitätsstufe AA. Ob Ihr Unternehmen unter die Pflicht fällt, klärt der Artikel zur BFSG-Rechtslage für PDFs und Downloads. Dieser Artikel hier behandelt das Handwerk: was technisch konkret gefordert ist, wo die häufigsten Fehler liegen und wie Sie systematisch prüfen.
Die WCAG-Anforderungen für Multimedia im Überblick
Die WCAG 2.2 widmet dem Thema Multimedia fünf Erfolgskriterien unter Leitlinie 1.2. Sie unterscheiden sich nach Medientyp, Konformitätsstufe und Zielgruppe. Die Tabelle zeigt, was für welches Medium gilt.
| Kriterium | Medientyp | Anforderung | Stufe |
|---|---|---|---|
| 1.2.1 | Nur Audio oder nur Video (aufgezeichnet) | Transkript für Audio-only; Transkript oder Audiobeschreibung für Video-only | A |
| 1.2.2 | Video mit Ton (aufgezeichnet) | Untertitel (Captions) mit Sprecherkennzeichnung und Geräuschbeschreibungen | A |
| 1.2.3 | Video mit Ton (aufgezeichnet) | Audiodeskription oder vollständige Mediaalternative als Text | A |
| 1.2.4 | Video mit Ton (live) | Untertitel in Echtzeit | AA |
| 1.2.5 | Video mit Ton (aufgezeichnet) | Audiodeskription (gesprochene Beschreibung der Bildebene) | AA |
Für die meisten Unternehmen ist Stufe AA der Zielpunkt, den das BFSG über die EN 301 549 vorschreibt. Das bedeutet: Aufgezeichnete Videos mit Ton brauchen sowohl Untertitel (1.2.2) als auch Audiodeskription (1.2.5). Reine Audiodateien wie Podcast-Episoden brauchen ein Transkript (1.2.1). Die fünf Kriterien schließen sich nicht aus, sie ergänzen sich.
Untertitel richtig umsetzen
Kriterium 1.2.2 verlangt Untertitel für alle aufgezeichneten Videos mit Ton. Was dabei häufig missinterpretiert wird: Untertitel im Sinne der WCAG sind keine bloße Transkription des gesprochenen Texts. Sie müssen auch bedeutungsvolle Hintergrundgeräusche und die Sprecheridentifikation enthalten. In einem Unternehmensfilm, in dem zwei Personen reden, muss erkennbar sein, wer gerade spricht. Ein Hinweis wie [Telefon klingelt] oder [Applaus] in der Untertitelspur liefert hörbeeinträchtigten Zuschauern den Kontext, der über den Ton allein transportiert wird.
Technisch werden Untertitel als WebVTT- oder SRT-Datei eingebunden. Das HTML5-Element <track kind="captions" src="untertitel.vtt" srclang="de" label="Deutsch"> bindet die Datei ein und ist ins Bild gebrannten Untertiteln klar vorzuziehen, weil Nutzer Schriftgröße und Darstellung dann selbst anpassen können.
Der häufigste Fehler: Plattform-generierte Untertitel von YouTube, Microsoft Teams oder ähnlichen Diensten werden ohne Prüfung übernommen. Bei klarer Hochsprache und ruhiger Umgebung ist die automatische Erkennung oft brauchbar. Bei Fachbegriffen, Produktnamen, Eigennamen oder Dialekt bricht sie regelmäßig ein. Ein falsch transkribierter Produktname in einem Erklärvideo ist kein kosmetischer Mangel, sondern ein inhaltlicher Fehler. Automatisch erzeugte Rohfassungen brauchen in der Praxis immer einen menschlichen Korrekturlauf.
Audiodeskription: das vergessene Kriterium
Audiodeskription ist das am häufigsten übersehene der fünf Multimedia-Kriterien. Es geht darum, das, was auf der Bildebene passiert und nicht aus dem Ton hervorgeht, gesprochen zu beschreiben. Namensschilder, eingeblendete Diagramme, Gesten, Mimik, Text auf Bildschirmen oder Folien, Szenenwechsel: alles, was eine blinde Person beim Zuhören sonst verpasst.
Die WCAG nennt zwei Wege. Der erste ist die Audiodeskription in vorhandenen Dialogpausen: Die Beschreibung wird in die Lücken des Originaltexts eingebettet. Das reicht, wenn die Pausen ausreichend lang sind. Der zweite Weg ist die erweiterte Audiodeskription: Das Video wird an entscheidenden Stellen kurz angehalten, die Beschreibung eingesprochen, dann läuft es weiter. Dieser Ansatz ist aufwendiger, aber nötig, wenn der Originalton zu dicht ist. Die dritte Option, eine vollständige Textfassung als Mediaalternative, deckt Kriterium 1.2.3 auf Stufe A ab und ist damit kein vollständiger Ersatz für die Audiodeskription nach 1.2.5 auf Stufe AA.
Die wichtige Ausnahme: Wenn der Originalton bereits alle visuellen Informationen vollständig beschreibt, zum Beispiel weil der Sprecher sein Vorgehen lückenlos kommentiert, entfällt die zusätzliche Audiodeskription. Das ist bei Screencasts mit durchgehend erklärendem Kommentar häufig der Fall. Dort muss man das sauber begründen können, nicht einfach behaupten.
Transkripte: wann sie Pflicht sind und was sie leisten
Ein Transkript ist mehr als die abgetippte Tonspur. Ein vollständiges Transkript enthält die Sprecherkennzeichnung, bereinigt Füllwörter wo sinnvoll, beschreibt relevante visuelle Elemente wie Diagramme oder Produktnamen auf Bildschirmen und steht als strukturierter Text auf derselben Seite wie das Video oder unmittelbar verlinkt. Ein Transkript hinter einem per display:none ausgeblendeten Element ist nicht regelkonform, weil es dann auch für Screenreader nicht erreichbar ist. Es muss im DOM sichtbar und fokussierbar sein.
Für Unternehmen mit Podcast-Inhalten oder Audiomitschnitten ist das Transkript Pflicht auf Stufe A. Für Unternehmensvideos mit Bild und Ton ist es auf Stufe AA nicht zwingend, aber praktisch sinnvoll: Das Transkript wird von Suchmaschinen indexiert, kann als Grundlage für einen Blogbeitrag dienen und kommt Menschen entgegen, die lieber lesen als schauen, zum Beispiel in lauter Umgebung oder mit eingeschränkter Internetverbindung. Dass Transkripte Untertitel ersetzen, ist ein häufiges Missverständnis: Beide Anforderungen sind eigenständig. Ein Transkript ist kein Ersatz für zeitsynchrone Untertitel im laufenden Video.
Getaggte PDFs: Struktur ist nicht Gestaltung
Der technische Maßstab für barrierefreie PDFs ist der Standard PDF/UA (ISO 14289). Die aktuell relevante Version für PDF 1.7 ist ISO 14289-1, seit 2024 gibt es zudem ISO 14289-2 für PDF 2.0. Ein PDF/UA-konformes Dokument erfüllt unter anderem diese Anforderungen:
- Tag-Baum vollständig und korrekt: Jedes Element hat den semantisch richtigen Tag: H1 bis H6 für Überschriften, P für Absätze, L und LI für Listen, Table, TH und TD für Tabellen.
- Lesereihenfolge stimmt mit der sichtbaren Reihenfolge überein: In mehrspaltigen Layouts liegt mehrspaltig angeordneter Text häufig in falscher Reihenfolge im Tag-Baum, wenn er nicht manuell korrigiert wird.
- Dekorative Elemente als Artefakte markiert: Ornamente, Trennlinien und Seitenrahmen, die keinen inhaltlichen Wert haben, werden als Artefakt gekennzeichnet, damit der Screenreader sie überspringt.
- Alternativtexte für informative Grafiken: Jedes Bild, das Informationen trägt, hat einen Alternativtext im Tag. Rein dekorative Grafiken sind als Artefakt markiert, ohne Alternativtext. Der Artikel Gute Alternativtexte schreiben zeigt den Unterschied an konkreten Beispielen.
- Dokumentsprache gesetzt: Die Metadaten enthalten die Sprache des Dokuments. Bei mehrsprachigen Dokumenten können einzelne Abschnitte mit abweichenden Sprachkennzeichnungen versehen werden.
- Tabellenkopfzellen ausgezeichnet: TH-Tags für Kopfzellen, nicht nur optisch fett formatierte TD-Zellen.
Auch für PDF-Inhalte gilt Erfolgskriterium 1.4.3: Farbkontrast mindestens 4,5:1 für normalen Text und 3:1 für Text ab 18 Punkt oder ab 14 Punkt fett. Ein optisch professionell gestaltetes PDF mit zu hellem Grauton für Fließtext erfüllt die Anforderung nicht, egal wie sauber der Tag-Baum ist. Die 12 häufigsten Barrieren zeigen, dass Kontrastmängel auch im Web das verbreitetste einzelne Problem sind, bei PDFs sieht es nicht besser aus.
Der Export-Irrtum: Word und InDesign reichen nicht automatisch
Word erzeugt aus einem sauber ausgezeichneten Quelldokument, also mit echten Formatvorlagen und Alternativtexten für alle Bilder, beim PDF-Export einen brauchbaren Tag-Baum. Wer Überschriften dagegen manuell fett und größer gemacht hat, ohne Formatvorlage zu nutzen, bekommt ein PDF ohne semantische Struktur. Das Tag-Ergebnis unterscheidet sich dann nicht von einem Scan.
InDesign-Dokumente brauchen fast immer manuelle Nacharbeit in Adobe Acrobat Pro, weil der Tag-Export besonders bei Mehrspaltenlayouts, Tabellen und Fußnoten inkonsistente Ergebnisse liefert. Gescannte PDFs ohne OCR-Texterkennung sind für Screenreader vollständig stumm: keine Textebene, kein Tag-Baum, jede Seite ein leeres Bild.
Praxisbeispiel: Unternehmensfilm und Produktbroschüre
In einem Projekt, das wir begleitet haben, hatte ein Unternehmen einen Imagefilm auf der Website und Produktbroschüren als PDF-Download. Die Prüfung zeigte beides in typischer Form.
Beim Film: YouTube-Untertitel waren aktiviert, aber in der Rohfassung. Der aus einer Abkürzung bestehende Firmenname wurde regelmäßig falsch erkannt. Sprecherkennzeichnungen fehlten. Audiodeskription fehlte vollständig, obwohl das Video eingeblendete Kennzahlen und Logos zeigte, die ohne Beschreibung sinnlos blieben.
Bei den PDFs: Drei InDesign-Broschüren, professionell gestaltet, ohne einen einzigen Tag. PAC 2026 meldete beim ersten Dokument 47 Fehler: fehlende Alternativtexte für alle Produktfotos, eine falsche Lesereihenfolge im dreispaltigen Layout, fehlende Tabellenkopfzellen und keine Dokumentsprache. Nachbearbeitungsaufwand in Acrobat Pro: rund drei Stunden pro Dokument. Die Videokorrektur inklusive neu eingesprochener Audiodeskription: ein halber Arbeitstag.
Beide Punkte wären bei einer Behördenprüfung sofort aufgefallen. Die Früh-Investition war deutlich günstiger als eine Nachbesserung unter Druck.
Schritt für Schritt zur Prüfung
Schritt 1: Videos inventarisieren
Alle öffentlich zugänglichen Videos auflisten: eingebettete YouTube- und Vimeo-Inhalte, selbst gehostete Videos, Videobotschaften, Erklärvideos. Für jedes Video prüfen, ob Untertitel vorhanden sind, ob sie korrekt und manuell geprüft sind, ob eine Audiodeskription nötig ist und ob ein Transkript bereitsteht (bei Podcast-Inhalten Pflicht, bei Videos empfohlen).
Schritt 2: Untertitel nacharbeiten
Automatisch generierte Untertitel herunterladen (YouTube bietet VTT-Export), in einem Texteditor oder einem Untertitel-Editor öffnen und manuell korrigieren. Sprecherkennzeichnung ergänzen, bedeutungsvolle Geräusche beschreiben. Dann die korrigierte VTT-Datei hochladen und per <track>-Element einbinden.
Schritt 3: PDFs prüfen
Das kostenlose PAC 2026 (Windows, keine Adminrechte nötig) öffnen, das PDF laden und den Report lesen. PAC prüft gegen PDF/UA und WCAG: Tag-Baum, Alternativtexte, Lesereihenfolge, Kontrast. Die KI-gestützte Analyse in dieser Version bewertet auch semantische Strukturelemente automatisch.
Schritt 4: PDFs nachtaggen
In Adobe Acrobat Pro den Tag-Baum-Editor öffnen. Fehlende Tags setzen, Lesereihenfolge im mehrspaltigen Layout korrigieren, dekorative Grafiken als Artefakt markieren, Alternativtexte eintragen, Tabellenkopfzellen als TH auszeichnen, Dokumentsprache in den Metadaten hinterlegen. Danach erneut mit PAC prüfen.
Schritt 5: Videoplayer prüfen
Den Player auf der Website mit der Tastatur testen: Abspielen, Pausieren, Lautstärke, Untertitel ein und aus, ohne Maus. YouTube- und Vimeo-Embeds sind in der Regel zugänglich. Eigene oder Drittanbieter-Player oft nicht.
Sofort-Checkliste
- Haben alle aufgezeichneten Videos mit Ton manuell geprüfte Untertitel mit Sprecherkennzeichnung und Geräuschbeschreibungen?
- Sind die Untertitel als separate VTT- oder SRT-Datei eingebunden, nicht ins Bild gebrannt?
- Gibt es für alle aufgezeichneten Videos eine Audiodeskription oder ist belegt, dass der Ton alle visuellen Informationen bereits vollständig enthält?
- Haben alle reinen Audioinhalte (Podcast, Audioguide) ein vollständiges Transkript auf derselben Seite oder unmittelbar verlinkt?
- Ist das Transkript im DOM sichtbar und nicht per display:none versteckt?
- Lässt sich der Videoplayer vollständig ohne Maus bedienen?
- Hat jedes öffentlich zugängliche PDF einen vollständigen Tag-Baum in korrekter Lesereihenfolge (geprüft mit PAC 2026)?
- Haben alle informativen Grafiken im PDF einen Alternativtext, dekorative Grafiken den Artefakt-Status?
- Sind Tabellenkopfzellen in PDFs als TH ausgezeichnet, nicht nur optisch hervorgehoben?
- Ist die Dokumentsprache in den PDF-Metadaten hinterlegt?
- Erfüllen Fließtext in PDFs und Videos den Mindestkontrast von 4,5:1?
- Videos brauchen drei unabhängige Maßnahmen: Untertitel (1.2.2), Audiodeskription (1.2.5) und, bei reinen Audioinhalten, Transkripte (1.2.1). Keine dieser drei Anforderungen ersetzt eine andere.
- Automatisch generierte Untertitel und ungeprüfte Word- oder InDesign-Exporte erfüllen die Anforderungen in der Praxis fast nie ohne manuelle Nacharbeit.
- Ein barrierefreies PDF ist kein schön gestaltetes PDF, sondern ein logisch getaggtes. Der Tag-Baum muss vollständig, korrekt und in der richtigen Lesereihenfolge vorliegen.
- PAC 2026 findet die meisten PDF-Fehler automatisch und kostenlos. Für Videos gibt es keinen vergleichbaren Automatismus, dort ist Handprüfung Pflicht.
Häufige Fragen
Müssen Untertitel manuell erstellt werden, oder reicht eine KI-Generierung?
KI-generierte Untertitel reichen als Ausgangspunkt, wenn sie anschließend von einem Menschen geprüft und korrigiert werden. Rohfassungen ohne Nachbearbeitung erfüllen Erfolgskriterium 1.2.2 in der Regel nicht, weil Erkennungsfehler, fehlende Sprecherkennzeichnung und fehlende Geräuschbeschreibungen typische Lücken sind.
Gilt das BFSG auch für PDF-Dokumente, die nur als Download bereitstehen?
Ja. Sobald ein Dokument öffentlich zugänglich ist, als Download bereitsteht oder an Kunden und Interessenten verschickt wird, gelten die Anforderungen. Rein interne Dokumente ohne Kundenbezug sind nicht unmittelbar erfasst. Welche Downloads konkret unter das BFSG fallen, erläutert der Artikel zur BFSG-Rechtslage für PDFs ausführlich.
Reicht ein Transkript als Ersatz für Untertitel im Video?
Nein. Untertitel und Transkript sind getrennte Anforderungen. Ein Transkript erfüllt Kriterium 1.2.1 für reine Audioinhalte, ersetzt aber nicht die nach 1.2.2 geforderten Untertitel für Videos mit Bild und Ton. Untertitel müssen zeitsynchron zum laufenden Bild verfügbar sein, ein Transkript ist das nicht.
Wie prüfe ich, ob mein PDF barrierefrei ist?
Der zuverlässigste kostenfreie Weg ist PAC 2026 (Windows), der PDF Accessibility Checker der Stiftung Zugang für alle. Er prüft gegen PDF/UA und WCAG und zeigt Fehler im Tag-Baum, fehlende Alternativtexte und Kontrastprobleme strukturiert an. Adobe Acrobat Pro enthält eine integrierte Barrierefreiheitsprüfung, liefert aber weniger detaillierte Ergebnisse. Die Barrierefreiheitserklärung, in der Sie Ihren Konformitätsstand dokumentieren müssen, ist ein eigenes Thema: Was dort hineingehört, zeigt der Leitfaden zur Barrierefreiheitserklärung.
Mein Video erklärt alles verbal, brauche ich trotzdem Audiodeskription?
Wenn der Originalton alle visuellen Informationen vollständig beschreibt, zum Beispiel ein Screencast mit lückenlosem Kommentar, entfällt die zusätzliche Audiodeskription nach 1.2.5. Das muss aber tatsächlich der Fall sein und dokumentiert werden, nicht nur behauptet. Sobald das Video eingeblendeten Text, Diagramme, Grafiken oder Aktionen zeigt, die nicht kommentiert werden, ist Audiodeskription nötig.
Was kostet es, PDFs nachträglich barrierefrei zu machen?
Das hängt stark vom Dokument ab. Ein einfaches Textdokument aus Word, das mit Formatvorlagen erstellt wurde, lässt sich mit PAC-Prüfung und kleineren Korrekturen in einer Stunde bereinigen. Ein mehrspaltiges InDesign-Dokument mit Tabellen und vielen Grafiken kann mehrere Stunden Nacharbeit in Acrobat Pro erfordern. Die günstigste Variante ist immer das Quelldokument korrekt aufzubauen, bevor es zum PDF wird.
