Alt-Text vs. Bildbeschreibungen
Ein tiefer Einblick in die Unterschiede zwischen Alt-Text und Bildbeschreibungen und warum weniger oft mehr ist, besonders im Zeitalter von KI-generierten Inhalten.

von Denis Paris
Veröffentlicht am 12. Nov. 2025

Einführung
Immer mehr Bildbeschreibungen werden heute mit KI erstellt. Was zunächst nach einer praktischen Lösung klingt, entpuppt sich in der Realität oft als Problem. Wie ich in meinem Talk zu KI-Bildbeschreibungen dargelegt habe, ist automatisierte Beschreibung nicht immer die beste Wahl.
Als ich den Vortrag Accessibility und KI Bildbeschreibungen beim A-Tag gehalten habe, fiel mir etwas auf. Vielen Teilnehmenden war der grundlegende Unterschied zwischen Bildbeschreibungen und Alt-Text nicht klar. Genau diese Verwechslung führt dazu, dass Bilder im Web oft nicht wirklich zugänglich sind, obwohl sich jemand Mühe gegeben hat. Deshalb schreibe ich diesen Artikel.
Was Alt-Text wirklich ist
Alt-Text ist eine Alternative zum Bild. Er ersetzt das Bild in Situationen, in denen es nicht sichtbar ist oder nicht wahrgenommen werden kann. Ein Screenreader liest ihn vor. Eine langsame Internetverbindung zeigt ihn an, wenn das Bild nicht lädt. Ein Suchmaschinen-Bot nutzt ihn, um zu verstehen, was auf dem Bild zu sehen ist.
Der entscheidende Punkt ist: Alt-Text fokussiert sich auf den Zweck und die Funktion des Bildes im jeweiligen Kontext. Nicht auf eine vollständige Beschreibung dessen, was auf dem Bild zu sehen ist.
Dieses Beispiel verdeutlicht das:

Wenn ich auf meiner Website ein Foto von mir bei einem Vortrag zeige, könnte eine KI-generierte Beschreibung lauten:
Ein Mann hält eine Präsentation, wobei er links neben einer großen Leinwand steht. Er trägt eine schwarze Kapuzenjacke und dunkle Jeans und hat einen Bart. Der Mann hält ein Mikrofon in der rechten Hand und blickt leicht nach rechts. Vor ihm befindet sich ein Pult, auf dem ein MacBook-Laptop liegt. Die Projektionsfläche zeigt eine Folie mit dem Titel “Fehlerquellen KI generierte Bildbeschreibungen:”. Darunter sind mehrere Fehlerarten in Aufzählungspunkten gelistet, wie zum Beispiel “Falsche Informationen ‘Echte Freiheitsstatue’” und “Halluzinationen ‘2 Männer’ statt einer Person”. Am unteren Rand der Folie ist eine E-Mail-Adresse eingeblendet. Die Szene vermittelt den Eindruck eines Vortrags oder Seminars.”
Ist es wirklich notwendig, all diese Details im Alt-Text, wie z.B. Blickrichtung, Kleidung oder die genaue Position der Hände zu haben? Wahrscheinlich nicht.
Die Faustregel lautet: Der Alternativtext soll das Bild ersetzen und alle wichtigen Informationen kommunizieren, die für das Verständnis des Inhalts relevant sind.
Ein prägnanterer und sinnvollerer Alt-Text wäre:
“Denis Paris hält beim A-Tag eine Präsentation über KI-generierte Bildbeschreibungen.”
Wenn es eher um den Inhalt der Folie geht, könnte der Alt-Text lauten:
“Denis Paris präsenterit eine Folie auf der folgendes steht: Fehlerquellen KI generierte Bildbeschreibungen,, Falsche Informationen “Echte Freiheitsstatue”, Fehlende Informationen “Haus in New York ohne TV-Show Friends Verbindung”, Halluzinationen “2 Männer” statt einer Person, Fehlender Kontext Allgemeiner Protest, Verweigern von Bildbeschreibungen “Entschuldigung, ich kann noch nicht mit Bildern von Personen umgehen.”
Wie im Vortrag erwähnt ist der Kontext entscheidend. Der Alt-Text sollte sich darauf konzentrieren, was für das Verständnis des Inhalts wichtig ist, und nicht auf eine vollständige visuelle Beschreibung des Bildes abzielen.
Das Problem mit überlangen Beschreibungen
In unserer IT Bubble, verlieren wir manchmal den Blick für die Realität vieler Nutzer:innen, den viele Menschen sind nicht technisch versiert. Sie navigieren nicht seit 20 Jahren professionell durch das Web. Sie haben nicht drei verschiedene Screenreader installiert und kennen jede Abkürzung auswendig.
Viele Menschen erblinden im Laufe ihres Lebens. Durch Krankheit. Durch Unfälle. Durch Alter. Diese Menschen müssen plötzlich lernen, das Web auf eine völlig neue Art zu nutzen. Sie sind Anfänger in einer Welt, die für sie komplett neu ist.
Für diese Menschen sind überlange Bildbeschreibungen eine Qual. Sie müssen sich durch Absätze von Text kämpfen, nur um zu verstehen, was auf einem einfachen Bild zu sehen ist. Sie verlieren den Kontext. Sie verlieren die Geduld. Sie verlieren das Interesse.
Warum KI das Problem verschärft
KI-Systeme beschreiben Bilder mit beeindruckender Detailgenauigkeit. Sie zählen Objekte. Sie erkennen Farben. Sie beschreiben Positionen und Beziehungen. Aber sie verstehen den Kontext nicht. Sie wissen nicht, warum das Bild an dieser Stelle eingefügt wurde. Sie kennen die Intention nicht.
Ich habe Websites gesehen, auf denen jedes Produktfoto einen dreieinhalb Zeilen langen Alt-Text hatte. Mit Informationen über Beleuchtung, Bildwinkel und Hintergrundfarbe. Informationen, die für den Kauf des Produkts völlig irrelevant waren.
Die Details zu den Problemen mit KI-generierten Bildbeschreibungen findest du in meinem ausführlichen Artikel dazu.
Der richtige Ansatz
Meine Überzeugung ist simpel: Alt-Text sollte nur so lang wie nötig sein.
Das bedeutet konkret:
Erstens: Überlege dir den Zweck des Bildes. Ist es dekorativ? Dann braucht es keinen Alt-Text (genauer: einen leeren Alt-Text alt=""). Vermittelt es Information? Dann fasse diese Information in einem Satz zusammen. Ist es ein Link oder Button? Dann beschreibe die Aktion, nicht das Aussehen.
Zweitens: Berücksichtige den umgebenden Text. Wenn die Bildunterschrift oder der Absatz darüber bereits beschreibt, was auf dem Bild zu sehen ist, muss der Alt-Text das nicht wiederholen. Redundanz hilft niemandem.
Drittens: Denke an die Nutzer:innen, die neu sind. Die gerade erst lernen, mit assistiven Technologien umzugehen. Die nicht die Geduld oder die Erfahrung haben, sich durch endlose Beschreibungen zu kämpfen.
Wenn mehr Information nötig ist
Manchmal ist ein kurzer Alt-Text tatsächlich nicht ausreichend. Bei komplexen Diagrammen. Bei Infografiken. Bei technischen Zeichnungen. In diesen Fällen brauchen wir zusätzliche Beschreibungen.
Aber hier ist der Punkt: Diese ausführlichen Beschreibungen sollten zusätzlich zum Alt-Text existieren. Nicht anstelle davon. Und sie sollten optional sein.
Mein bevorzugter Ansatz ist eine aufklappbare Caption. Poweruser, die mehr Details wollen, können sie öffnen. Alle anderen bekommen den kurzen, prägnanten Alt-Text und können weitermachen.
<figure>
<img src="diagramm.png" alt="Balkendiagramm zeigt stetig steigende Umsatzentwicklung 2020-2025" />
<details>
<summary>Ausführliche Beschreibung</summary>
<p>Das Diagramm zeigt sechs Balken für die Jahre 2020 bis 2025...</p>
</details>
</figure>Dieser Ansatz respektiert beide Gruppen. Die einen bekommen die Kurzversion. Die anderen bekommen die Details auf Wunsch.
So kann es praktisch aussehen aus unserem vorherigen Beispiel:

Ausführliche Beschreibung
Ein Mann hält eine Präsentation, wobei er links neben einer großen Leinwand steht. Er trägt eine schwarze Kapuzenjacke und dunkle Jeans und hat einen Bart. Der Mann hält ein Mikrofon in der rechten Hand und blickt leicht nach rechts. Vor ihm befindet sich ein Pult, auf dem ein MacBook-Laptop liegt. Die Projektionsfläche zeigt eine Folie mit dem Titel “Fehlerquellen KI generierte Bildbeschreibungen:”. Darunter sind mehrere Fehlerarten in Aufzählungspunkten gelistet, wie zum Beispiel “Falsche Informationen ‘Echte Freiheitsstatue’” und “Halluzinationen ‘2 Männer’ statt einer Person”. Am unteren Rand der Folie ist eine E-Mail-Adresse eingeblendet. Die Szene vermittelt den Eindruck eines Vortrags oder Seminars.
Was ich daraus gelernt habe
Die Verwechslung zwischen Alt-Text und Bildbeschreibungen ist weit verbreitet. Sie führt dazu, dass gut gemeinte Bemühungen um Barrierefreiheit ins Gegenteil umschlagen. Menschen werden mit Informationen überflutet, die sie nicht brauchen oder wollen.
Gleichzeitig zeigt mir die Arbeit mit KI-generierten Beschreibungen, wie wichtig menschliches Urteilsvermögen bleibt. Technologie kann unterstützen. Sie kann beschleunigen. Aber sie kann den Kontext und die Intention nicht erfassen.
Mein Plädoyer ist deshalb klar: Weniger ist oft mehr. Ein kurzer, präziser Alt-Text, der den Zweck erfüllt und in richtigen Kontext einordnet, ist wertvoller als eine ausführliche Beschreibung, die niemand zu Ende hört.
Barrierefreiheit bedeutet nicht, möglichst viel Information bereitzustellen. Sie bedeutet, die richtige Information zur richtigen Zeit in der richtigen Form bereitzustellen.
Und das erfordert Nachdenken. Kontext verstehen. Und die Bereitschaft, sich in Menschen hineinzuversetzen, die das Web anders erleben als wir selbst.
P.S.: Wie gehst du mit Bildbeschreibungen auf deiner Website um? Nutzt du KI oder schreibst du sie selbst? Ich bin gespannt auf deine Erfahrungen.
Weitere Artikel
Schau dir das Blog-Archiv an, um tiefer in inklusives Design und Barrierefreiheitspraktiken einzutauchen.
Zur BlogübersichtBeitrag Teilen
Gefällt dir dieser Beitrag? Teile ihn mit deinem Netzwerk!