Denis Paris präsentiert die KI-Session beim A-TAG

Vortag in Wien beim A-TAG

Am 15. Mai 2025 hatte ich die Gelegenheit, auf dem A-TAG Opens in a new tab in Wien über die faszinierenden, aber auch herausfordernden Aspekte der Nutzung von Künstlicher Intelligenz (KI) zur Generierung von barrierefreien Bildbeschreibungen zu sprechen. In meinem Vortrag mit dem Titel

“Accessibility und KI Bildbeschreibungen: Wie verschiedene KI Modelle als Werkzeug für automatische Bildbeschreibungen genutzt werden können.”

habe ich die Zuhörerschaft auf eine Reise durch meine Erfahrungen mit verschiedenen KI-Modellen mitgenommen und die Herausforderungen beleuchtet, die bei der Erstellung von Alt-Texten für Bilder auftreten. Und euch möchte ich diese Erkenntnisse nicht vorenthalten.

KI und die Kunst der Bildbeschreibungen

Anfangs dachte ich: Das wird einfach. Ein Foto, ein Knopfdruck, eine perfekte Beschreibung. Die Realität ist komplizierter, emotionaler und letztlich menschlicher, als ich mir vorgestellt habe.

Die Hoffnung und das Scheitern

Ich versuche, mit verschiedenen KI-Modellen zu arbeiten. ChatGPT, Claude, Gemini, Llama, DeepSeek und andere. Jedes verspricht mir das Gleiche: Automatische Bildbeschreibungen für barrierefreie Webseiten. Ein großartiges Ziel, wirklich. Menschen mit Seheinschränkungen könnten durch diese Technologie endlich Inhalte erleben, die ihnen bislang verschlossen blieben.

Dann passiert etwas Seltsames.

Die KI beschreibt ein Bild, und ich denke: Das stimmt. Aber beim zweiten Hinschauen merke ich, dass Information fehlt. Beim dritten Hinschauen stelle ich fest, dass Informationen erfunden wurden. Das klingt dramatisch, aber es ist genau das, was in diesem Bereich passiert. Die KI halluziniert.

Was bedeutet Sehen wirklich?

Es ist leicht, die Schuld der Technologie zu geben. Aber je länger ich damit arbeite, desto mehr verstehe ich: Die KI scheitert nicht, weil sie schlecht ist. Sie scheitert, weil Sehen ein Akt ist, der über das bloße Erfassen von Pixeln hinausgeht. Sehen bedeutet: verstehen, kontextualisieren, interpretieren, werten. Und das ist zutiefst menschlich.

Die verschiedenen Arten des Scheiterns

In meiner Arbeit bin ich auf mehrere Fehlerquellen gestoßen, und jede einzelne hat mich etwas gelehrt.

  • Falsche Informationen: Die KI beschreibt das Bild, aber das, was sie sieht, ist nicht das, was tatsächlich dort ist. Sie verwechselt Dinge, liest Schilder falsch, interpretiert Farben anders als wir. Das passiert häufiger als ich dachte, und das ist mies, weil die Beschreibung im ersten Moment plausibel klingt.

  • Fehlende Informationen: Das Gegenteil passiert auch. Die KI sieht das Bild, beschreibt aber nur das Offensichtlichste. Der Kontext, das Warum, die Details, die eine Szene erst lebendig machen, verschwinden. Beispielsweise: “Eine Person steht vor einem Gebäude.” Aber welches Gebäude? Warum ist die Person dort? Diese Tiefe fehlt oft.

  • Halluzinationen: Dies ist vielleicht das Beängstigendste. Die KI sieht Dinge, die nicht da sind. Menschen, die es nicht gibt. Details, die sie einfach erfunden hat. Und sie sagt es mir so selbstverständlich, als würde sie die Wahrheit sprechen.

  • Verweigerung von Kontext: Manche KI-Modelle weigern sich einfach, Menschen zu beschreiben. Sie sagen mir: “Entschuldigung, ich kann noch nicht mit Bildern von Menschen helfen.” Das ist ehrlich, aber es ist auch eine Art Kapitulation. Genau die Menschen, die diese Beschreibungen brauchen, werden ausgeschlossen.

  • Diskriminierung ohne Absicht: Ich habe erlebt, dass KI-Modelle Geschlechter annahmen, die nicht korrekt waren. Sie beschrieben Menschen anhand von Stereotypen. Sie erkannten genderneutrale Personen nicht richtig. Und das war nicht böse gemeint, aber es war falsch, und es tat weh zu sehen, wie eine Maschine Menschen unsichtbar machte.

Der Kontext ist alles, und doch nicht genug

Ich begann zu experimentieren. Ich gab den KI-Modellen Kontext. Ich sagte ihnen: “Das Bild wird auf einem Blog verwendet. Die Person darauf bedeutet folgendes…” Und wisst ihr was? Es half. Teilweise.

Manche Modelle wurden besser. Sie beschrieben details präziser, erkannten Zusammenhänge. Aber andere halluzinierten weiterhin. Der Kontext war eine Krücke, nicht eine Lösung.

Die Kontrolle liegt beim Menschen

Hier wird es unternehmerisch für mich. Ich muss akzeptieren, dass KI ein Werkzeug ist, nicht mehr und nicht weniger. Ein großartiges Werkzeug, ja, aber ein Werkzeug, das Überwachung braucht. Die Verantwortung liegt nicht bei der Maschine. Sie liegt bei mir. Sie liegt bei uns.

Das ist unbequem. Ich hätte gerne ein System, das ich einfach anschalten kann und das dann macht. Aber die Realität ist: Jedes KI-generierte Alt-Text muss von einem Menschen überprüft werden. Jede automatische Beschreibung braucht menschliche Validierung.

Das ist arbeitsaufwendig. Das ist nicht glamourös. Aber es ist verantwortungsvoll.

Die unzureichenden Modelle und die unterschiedlichen Stärken

Ich habe gelernt, dass nicht alle Modelle gleich sind. Einige erkennen Kontexte besser, manche halluzinieren weniger, die meisten beschreiben Menschen, während andere Menschen komplett ignorieren.

Es gibt kein perfektes Modell. Es gibt nur Modelle mit unterschiedlichen Schwachstellen.

ChatGPT erkennt manchmal Details, die anderen entgehen, aber halluziniert auch. Claude ist zuverlässiger, aber manchmal zu kurz. Gemini beschreibt Menschen manchmal gar nicht. Llama halluziniert. MiniCPM V trifft Annahmen über Menschen.

Jedes Modell ist anders und wandelt sich ständig, es ist wichitg ihre Stärken und Schwächen zu verstehen.

Warum KI-generierte Bildbeschreibungen trotzdem wichtig sind

Hier ist das Paradoxe: Trotz all dieser Probleme sind KI-generierte Bildbeschreibungen besser als gar keine Bildbeschreibungen.

Ein automatisierter Alt-Text ist immer noch besser als “Bild von Produkt XY”. Ein fehlerhafter Text ist immer noch ein Versuch, die Welt für alle Menschen sichtbar zu machen. Und das ist ein Versprechen, das wir halten müssen.

Aber das “besser als nichts” kann nicht das Endziel sein. Das ist erst der Anfang.

Die menschliche Verantwortung

Ich gebe dir hier drei konkrete Haltungen, die ich aus dieser Arbeit mitgenommen habe.

  • Erstens: Nutze KI als Werkzeug der Effizienz, nicht als Ausrede für Kontrollverlust. Die KI beschreibt, aber der Mensch entscheidet.

  • Zweitens: Denk über Kontext nach, bevor du auf den Knopf drückst. Warum habe ich dieses Bild ausgewählt? Was möchte ich vermitteln? Was sind die wichtigen Details? Diese Fragen helfen der KI und dir selbst.

  • Drittens: Akzeptiere, dass Bildbeschreibungen keine isolierten Alt-Texte sind. Sie sind eine Brücke zwischen der visuellen Welt und denen, die diese Brücke brauchen. Das verdient Sorgfalt und Liebe, nicht Automatisierung auf Knopfdruck.

Bildbeschreibung mit KI als Dienstleistungen

Viele Agenturen, Freelancer und Beratungen bieten heute automatische Alt-Text-Generierung mit KI als Dienstleistung an. Manche werben mit günstigen Preisen und schneller Umsetzung. Das klingt verlockend, besonders wenn man hunderte oder tausende Bilder für BFSG-Richtlinien nachträglich beschreiben muss.

Aber hier ist die unbequeme Wahrheit: Bildbeschreibung mit KI als Dienstleistung muss mehr leisten, als nur Kosten zu sparen. Ohne menschliche Verantwortung bleiben Diskriminierung, Halluzinationen und Fehlbeschreibungen oft unbemerkt.

Wirklich seriöse Anbieter für barrierefreie Bilderkennung mit KI kombinieren immer Automatisierung mit menschlicher Qualitätskontrolle. Sie verstehen, dass semantische Bildbeschreibung mit KI ein Werkzeug ist, kein Ersatz für menschliches Verständnis.

WCAG-Beratung: Worauf du bei KI-Bildbeschreibungen achten solltest

Als jemand, der verschiedene KI-Modelle zur Bildbeschreibung getestet hat, kann ich dir folgende Empfehlungen geben:

Bei der Auswahl eines Dienstleisters für KI-Bildbeschreibungen:

  • Prüfe die Qualitätskontrolle: Werden alle KI-generierten Alt-Texte von Menschen überprüft?
  • Frag nach WCAG-Expertise: Versteht der Anbieter die Anforderungen von WCAG 2.1/2.2 für Textalternativen?
  • Transparenz bei Kosten: Seriöse Preise reflektieren den Aufwand für menschliche Überprüfung
  • Teste mit echten Nutzer:innen: Die beste Bildbeschreibung ist die, die für Menschen mit Sehbehinderungen wirklich funktioniert

Was ich als Freelancer & Berater anbiete:

  • KI-gestützte Bildbeschreibung mit menschlicher Kontrolle, effizient, aber verantwortungsvoll
  • WCAG-Beratung für Alt-Texte, inklusive Audit bestehender Bildbeschreibungen
  • Schulungen für Teams: Wie nutzt man KI-Tools kritisch und effektiv?
  • Qualitätsprüfung, Review von automatisch generierten Bildbeschreibungen

Die Kosten für eine umfassende, verantwortungsvolle Bildbeschreibung mit KI-Dienstleistung mögen höher erscheinen als reine Automation. Aber sie sind immer noch günstiger als rechtliche Probleme wegen mangelnder Barrierefreiheit, und vor allem: sie sind ethisch richtig.

Das größere Bild

Wir bauen eine inklusivere digitale Welt. Das ist ein Versprechen, das ich ernst nehme. Und KI kann dabei helfen. Sie kann wahnsinnig helfen, wenn wir sie richtig nutzen.

Aber richtig bedeutet: Mit Augen offen. Mit Skepsis. Mit Menschsein.

Die KI wird besser werden. Die Modelle werden verfeinert. Aber sie werden nicht perfekt werden. Und das ist okay. Solange wir verstehen, dass wir am Steuer sitzen, nicht die Maschine.

Teilhabe statt Ausschließung

Am Ende geht es um ein einfaches Prinzip: Teilhabe. Jeder Mensch, unabhängig von seinen Fähigkeiten, sollte die digitale Welt erleben können. KI ist ein Werkzeug für diesen großen Traum. Nicht die Lösung, aber ein Anfang.

Und dieser Anfang ist würdig, ernst genommen zu werden.

Ich freue mich darauf, dir bei Fragen oder Anregungen zur barrierefreien Bildbeschreibung mit KI weiterzuhelfen. Lass uns gemeinsam daran arbeiten, dass Technologie für alle Menschen funktioniert!

Weitere Artikel

Schau dir das Blog-Archiv an, um tiefer in inklusives Design und Barrierefreiheitspraktiken einzutauchen.

Zur Blogübersicht