KI, mach doch den Job für uns! – Ein Experiment

22. Mai 2026 / Designpsychologie, Kreation / 0 comment / By INNCH

Lesezeit: 12 Minuten

Wir haben systematisch getestet, wo KI in unserem Forschungs- und Designprozess wirklich hilft – und wo nicht. Das Ergebnis ist ernüchternd und hilfreich zugleich: KI simuliert Wissen und Verständnis erstaunlich gut, kann dieses Wissen aber nur begrenzt in tragfähige Gestaltung, Bewertung und Praxisentscheidungen übersetzen. Genau diese Unterscheidung gehört für uns zur eigentlichen KI-Kompetenz.

Keine Lust, schon wieder so eine Collage zu machen!

Die Collagen für die Blog-Beiträge hier und vor allem für die Hauptseiten unserer Webseite sind ziemlich aufwendig. Toll wäre es, wenn KI uns diese Arbeit abnehmen könnte. Kürzlich benötigten wir zum Beispiel eine neue Collage zum Thema “Künstlerische Forschung”. Wir haben die KI (Claude Opus 4.7 und ChatGPT mit GPT‑5.5 Thinking) im ersten Schritt alle 10 Collagen auf unseren Seiten analysieren lassen. Anschließend sollte sie eine Collage im gleichen Stil für das Thema “Künstlerische Forschung” erstellen.

Bei der Analyse zeigte sich, dass der Aufbau aus Oval-Segmenten und einige weitere Aspekte von beiden LLMs richtig erkannt wurden. Die Umsetzung in ein Design war dennoch enttäuschend. Mit den Oval-Segmenten klappte es nicht so ganz. Die Collage ist chaotisch. Es gibt Wiederholungen und undefinierbare Symbole. Teilweise wurden Bildelemente aus den Vorlagen unverändert übernommen. Die Farben stimmen nicht ganz. Auch das Thema “Künstlerische Forschung” wurde ziemlich platt illustriert. Schade … da müssen wir die Collagen wohl weiterhin selbst machen.

Lass uns das mal richtig testen, was KI für uns tun kann!

Wir haben diesen kleinen Test dann zum Anlass genommen, ein aufwändigeres, systematisches Experiment durchzuführen. Unsere Motivation war, Bereiche zu finden, in denen wir KI bisher nicht einsetzen und in denen sie uns eine echte Arbeitserleichterung bringen könnte.

Grundlage waren 7 reale Projekte: consumerLabs, die wir in den letzten Jahren gemeinsam mit unseren Kunden durchgeführt hatten. Sie waren vom Prozess her ähnlich und daher gut vergleichbar: Diese 7 Projekte bestanden aus insgesamt 46 mehrstündigen Workshops mit mehr als 250 realen Personen und über 80 Stunden Exploration. Wir wollten den Output der KI aber nicht nur mit den Endergebnissen dieser Projekte vergleichen, sondern mit den Ergebnissen jedes einzelnen Teilschritts im Iterationsprozess, um das Potenzial von KI wirklich zu entdecken.

Was ist ein consumerLab?
Im consumerLab werden Angebote, bei denen ein Konzept bereits grob steht, gemeinsam mit Konsumentinnen und Konsumenten zu einer Proposition samt Vermarktungsstrategie, Design und Wordings weiterentwickelt. Die für dieses Experiment herangezogenen Labs bestanden jeweils aus drei Schleifen mit je zwei Kundenworkshops: Auf Basis von Hypothesen und gegebenenfalls vorliegenden Insights wurden zunächst mehrere Routen entwickelt und als konkrete Mockups umgesetzt, etwa für Online-Teaser, Landingpages, Pop-ups, Newsletter oder Social Media Ads – jeweils mit Varianten an Visuals, Claims und Texten. Diese wurden anschließend mit Kundinnen und Kunden diskutiert, analysiert, im Team-Review überarbeitet und reduziert, bis am Ende ein validierter Prototyp übrig blieb. (mehr zum consumerLab hier)

Wir hatten bei diesen Projekten schon Hilfe von KI in Anspruch genommen, bisher aber nur als Tool zur Unterstützung bei der Umsetzung unserer Design-Ideen. Handarbeit war meist trotzdem noch nötig. Auch für ergänzende Ideen für Claims oder Produktnamen kam KI bereits regelmäßig zum Einsatz.

Die Leitfrage des Experiments war nun: Welche Schritte kann die KI demnächst an unserer Stelle durchführen? Oder: Wo kann sie uns im Prozess zusätzlich unterstützen, wo sie es derzeit noch nicht tut?

Wir haben dazu zunächst die verschiedenen Prozessschritte identifiziert. Diese haben wir die LLMs jeweils nacheinander und aufbauend auf den vorherigen Schritten ausführen lassen. Das Datenmaterial wurde für jedes Projekt identisch aufbereitet. Auch die Prompts haben wir sorgfältig entwickelt, damit sie bei jedem der 7 Projekte identisch eingegeben werden konnten. Für jedes Projekt haben wir zudem die Designs, die in den realen Labs entwickelt und mit realen Konsumentinnen diskutiert wurden, für die KI aufbereitet.

Do it!

Der Fahrplan war, dass die KI bei jedem Schritt in etwa die Kenntnisse besitzen sollte, die wir auch an dieser Stelle hatten. Dabei ging es grob um vier “Kompetenz”-Bereiche:

Psychologische Hypothesen: Wie gut sind die Anfangshypothesen zu möglichen Consumer-Insights der KI zu einem Thema, die sie irgendwo aus dem Internet recherchiert hat und aus denen wir dann die ersten 3 oder 4 verschiedenen Designrouten entwickeln? Wir nehmen zum Beispiel in einer Route an, es ginge den Kunden darum, einen guten Deal zu machen, und in einer anderen Route, es gehe um mehr Bequemlichkeit, die einem dieses neue Angebot verspricht. Dafür recherchieren wir oft selbst im Internet nach verfügbaren Studien zum Thema oder auch in Nutzerforen, um zumindest eine nicht völlig danebenliegende Grundlage für die Entwicklung der Routen zu haben. Wie gut ist die KI in der Vorrecherche?

Ideenentwicklung: Wie passend und originell, und wie nah an den späteren Ergebnissen aus den realen Labs sind die Ideen für Designs und Claims, die die KI aus ihren Anfangshypothesen entwickelt? Und wie gut sind sie, wenn sie unsere Hypothesen nutzt, die wir tatsächlich in dem jeweiligen Projekt hatten? Also: Wie gut ersetzt die KI die menschliche Ideenentwicklung?

Bewertungsprognose: Wie gut ist die KI beim Prognostizieren inklusive Begründung, wie ein Design und ein Claim bei den Konsumenten im realen Lab abgeschnitten haben? Bei der ersten Prognose hatte sie keine weiteren Infos außer denen, die sie selbst “recherchiert” hatte. Bei der zweiten Prognose klärten wir sie bei jeweils 15 Designentwürfen darüber auf, welche 5 gut und welche 5 schlecht von den Konsumentinnen bewertet wurden. Wie gut kann die KI also die Diskussion mit den Konsumenten über die Designs ersetzen?

Gestaltung: Wie gut – passend, originell, gemäß Kriterien guter Gestaltung – ist das Design, das die KI aus den Ideen entwickelt? Zuerst ohne Hinweis auf die tatsächlichen Ergebnisse des Labs, dann mit Kenntnis der Bewertung der 15 Entwürfe (s.o.). Ganz zum Schluss erhielt die KI die gesamte Auswertung von uns, inklusive vieler Entwürfe, zu denen sie auch die Info erhielt, was genau an einem Entwurf gut oder schlecht bewertet wurde und warum. Auf dieser Basis sollte sie neue Entwürfe entwickeln. Die Frage hier: Wie gut ersetzt die KI die Arbeit von Designern und Textern?

Wir haben die LLMs auch immer wieder zu einer besseren Leistung herausgefordert, indem wir zum Beispiel einen zweiten Durchlauf zur Designentwicklung durchgeführt haben – mit einem ergänzenden Prompt, mit dem wir sie dazu aufforderten, “besonders kreative oder lustige Designs” zu erstellen, die ein “ganz anderes Look&Feel als herkömmliche Werbebilder” haben.

Erstmal den Materialwust durchforsten und analysieren

Wie gewohnt waren die eingesetzten KI-Systeme sehr fleißig. Hätte es Sinn gemacht, der KI die Auswertung zu überlassen, hätte sie ihre Text- und Bildmassen gerne selbst durchlesen und analysieren können. Aber das nützt ja nichts: Wir mussten selbst vergleichen. Also haben wir uns zunächst unabhängig voneinander an die Auswertung gemacht.

Dabei interessierte uns zu jeder der 4 Fragen (s.o.) auch, inwieweit sich die KI tatsächlich an unsere Anweisungen gehalten hat und wie konsistent sie arbeitet. Macht sie immer dasselbe richtig und dasselbe falsch – oder immer etwas anderes? Es interessierte uns auch, wie konsequent sie ihre eigenen Ideen in Designs übersetzt und wie konsistent sie Designs bewertet, wenn man einen zweiten Bewertungs-Durchlauf ohne “Erinnerung” an den ersten noch einmal durchführt. Auch diese Ergebnisse waren wichtig für die Entscheidung, welche Prozessschritte wir der KI ggf. demnächst komplett anvertrauen können und in welchen sie gut ergänzen kann.

Ergebnis: Was kann KI uns im Ergebnis abnehmen?

Psychologische Hypothesen: Die Anfangshypothesen zu Insights funktionierten ganz gut. Bei Hypothesen reicht es ja auch, dass sie plausibel sind. Sie müssen nicht tatsächlich stimmen; das soll ja erst getestet werden. Das ist eine Kompetenz, die gut zur KI passt. Hier hatten wir den Eindruck, dass sie sogar Hypothesen liefert, die interessant sind und auf die wir selbst nicht unbedingt gekommen wären.

Ideenentwicklung: Die KI entwickelt ihre Designideen sehr konsistent aus den Insights heraus. Es sind auch teils interessante Anregungen dabei, auch für Claims. Teilweise bleibt sie in den Ideen etwas vage. Sie verrät nicht konkret, wie die Bildszene aussehen soll und welches Look&Feel sie haben sollte. Man muss dann noch viel eigene Fantasieleistung hinzufügen. Wird die Szene genau beschrieben, merkt man mitunter bereits in der Vorstellung, dass sie schwer zu realisieren sein dürfte, wenn sie nach den Kriterien guten Designs noch funktionieren soll. Beispiel (Vorschlag von Claude): “Eine Familie auf dem Sofa, jemand öffnet die App – und findet sofort, was alle sehen wollen”. Man versuche das einmal in einem Bild unterzubringen und nicht in einem Film.

Bewertungsprognose: Bei der Bildbewertung gibt es bereits Probleme bei der Bilderkennung. Zwar kommt es mitunter auch bei realen Konsumenten vor, dass sie auf einem Bild etwas Entscheidendes nicht erkennen oder etwas nicht so interpretieren, wie es gemeint war, sodass sie dann die Designidee nicht verstehen. Die LLMs erkannten aber auch Aspekte nicht, die von unseren Teilnehmenden in den Labs ohne Weiteres richtig erkannt wurden. Insbesondere, wenn Bilder eine Story beinhalten, etwas ungewöhnlicher sind oder Andeutungen zum Beispiel an bekannte Memes enthalten, werden sie meist verkannt. Wenn die KI zum Beispiel einen Koffer auf einem Bild vor einer meerblau gestrichenen Wand tatsächlich als im Meer befindlich verortet, das Gipsbein eines im Strandkorb sitzenden Mannes nicht bemerkt oder Gesichtsausdrücke extrem falsch deutet, dann können die entscheidenden Bildausdrücke gar nicht erst in die Bewertung einfließen.

Bei der Bewertung der 15 Bilder ordnet die KI die Bilder im Durchschnitt und auch bei mehreren Durchläufen recht konsistent als “gut” oder “schlecht” ein. Es gibt aber immer wieder Ausreißer. Für jede Bewertung haben die LLMs – so kennen wir sie – eine überzeugend klingende Erklärung parat. Das gilt allerdings auch dann, wenn im zweiten Durchgang ein Bild als “schlecht” abgewertet wurde, das im ersten Durchgang noch als “gut” gelobt wurde. Solche Vorkommnisse lassen die gesamte Bewertungsleistung leider hinfällig werden. Insgesamt wurden bei allen Bewertungsdurchläufen auch nur etwa die Hälfte der Bilder, die in den realen Labs die Gewinner waren, unter den Favoriten gesehen. Die Bewertungsleistung ist also nicht ausreichend, um auf das Urteil echter Menschen verzichten zu können.

Gestaltung: Ja, es ist beeindruckend, wie sich mit KI heute aus ein paar Sätzen eine vollständige Werbekampagne kreieren lässt, für die ein Designer vermutlich mehrere Tage brauchen würde – einmal ganz abgesehen vom Zeitaufwand für Fotografin, Models, Requisiten und vom Reiseaufwand der ganzen Crew.

Bisher nutzten wir KI, um eigene Designideen mit verschiedenen Bildgenerierungs-Tools sehr gezielt und gesteuert in Designs zu übersetzen. Dabei ist selten ein Design direkt brauchbar. Oft muss man dann doch Einzelteile generieren und in Photoshop zusammensetzen, die Stimmung anpassen, viele Details korrigieren oder vorab eigene Skizzen als Vorlagen für die KI erstellen. In diesem Fall hatte die KI aber sozusagen freie Hand bei der gestalterischen Umsetzung ihrer eigenen Ideen.

Auf den ersten Blick sind auch die Ergebnisse hier beeindruckend: Sie sehen nach echter professioneller Werbung aus. Teils sind auch auf den zweiten Blick brauchbare Visuals dabei, oder zumindest Designideen, die man als Vorlage oder Inspiration aufgreifen kann. Das ist aber eher selten. Bei den meisten Entwürfen zeigen sich auf den zweiten Blick eine ganze Menge Defizite:

👉 Die Bilder sind oft stereotyp: Sie ähneln einander stark im Motiv und auch atmosphärisch. Teilweise sind die abgebildeten Personen sogar dieselben, und sie wirken stark reduziert auf wenige Gesichtsausdrücke.

👉 Es zeigt sich wenig Vielfalt und wenig Raffinesse im Storytelling, zum Beispiel bei der Andeutung von Gefahr oder beim Humor.

👉 Sie wirken “glatt gebügelt” und schreien schon von weitem: “Ich bin Werbung!” Teilweise sind sie auch überladen und wirken wie Wimmelbilder.

👉 Oft sind es schwache Bilder, die ohne zentrale Begriffe im Text für alles Mögliche stehen könnten. Sogar themenübergreifend könnte man das ein oder andere Bild austauschen, ohne dass es auffallen würde, weil es ebenso für Versicherung wie für Urlaub stehen könnte.

👉 Sie sind ein wenig “platt” – die Botschaft wird oft zu illustrativ umgesetzt oder sogar 1:1 aus dem Text übersetzt, ohne sinnlich-körperliches Vorstellungsvermögen.

👉 Das Designproblem, eine vielschichtige Botschaft in einem einzigen Bild unterbringen zu müssen, wird teils einfach mit zusätzlichen Texten, Symbolen und Schaubildern gelöst, statt mit einer bildlichen Umsetzung. Die Designs wirken daher oft sehr kleinteilig.

Die Aufforderung, besonders “kreativ” zu entwickeln, funktioniert gar nicht. Die Ergebnisse sind weder kreativ im Sinne einer besonders ungewöhnlichen Bildmotiv-Idee noch im Sinne eines außergewöhnlichen Stils oder subtil intelligenten Witzes. Stattdessen sind sie konfus und übertrieben. Sie entfernen sich beliebig vom Thema und sind gewollt schräg bis albern.

Gibt man dem LLM schließlich alle Ergebnisse – auch in visueller Form – mit der Aufgabe, eine eigene Idee für ein anderes Medium zu entwickeln, dann gelingt es teils, noch neue Ideen zu entwickeln, die einigermaßen passend zu den Ergebnissen sind. Diese halten sich aber oft sehr nah an die Vorlagen und sind manchmal sogar nur leichte Variationen davon. Die KI hat auch keine Lösung für den Hinweis gefunden: “Im Unterschied zum Newsletter sollte das Bildmotiv mehr Aufmerksamkeit erzeugen, da es nur kurz angeschaut wird. Es darf auch ungewöhnlicher sein, auch etwas provokant, damit es zum Medium Instagram passt.” Auch wenn uns anschließend selbstsicher erklärt wurde, warum dieses neue Design besonders gut zu Instagram passt.

Jetzt wollen wir es nochmal wissen: Das LLM wird mit zusätzlichem Knowhow gefüttert

Da uns die Ergebnisse nach der Auswertung nicht wirklich zufriedengestellt hatten – wir hatten uns ehrlicherweise mehr erhofft –, haben wir noch einen weiteren Testdurchlauf angehängt. Vielleicht finden wir ja doch noch ein Feld, in dem uns KI mehr als bisher Arbeit abnehmen kann. Was wäre, wenn wir die KI mit umfangreichem relevantem Hintergrundwissen ausrüsten und dann die Aufgaben wiederholen?

Die Aufgaben wurden dazu als “Projekt” angelegt, das heißt: Das LLM erhielt neben den projektbezogenen Informationen und den Prompts im Chat zusätzliche und aufwändig “KI-lesbar” aufbereitete Dateien als eine Art Wissensdatenbank, auf die es bei jedem Teilschritt zugreifen sollte. Um diesen Kontext zu füttern, bereiteten wir eine Reihe von Dateien vor, unter anderem mit übergreifenden psychologischen Erkenntnissen aus vergangenen Projekten, mit detaillierteren Informationen zur Zielgruppe und den gewünschten Zielformaten sowie mit einem Werkzeugkasten aus nützlichen Kreativitätstechniken als Schritt-für-Schritt-Anleitung. Zusätzlich luden wir interessehalber auch alle 630 Seiten unseres Buchs “Wie Design wirkt” hoch.

Das Ergebnis war interessant: Bei der Hypothesen- und Ideengenerierung zeigten sich nur sehr geringe Unterschiede zum ersten Durchgang. Die waren ja auch im ersten Durchgang bereits brauchbar, insbesondere die Hypothesen. Die generierten Werbedesigns waren allerdings denen aus dem ersten Durchgang auch sehr ähnlich: zu stereotyp, zu illustrativ. Gerade hier hatten wir uns mehr erwartet. Dafür waren die Begründungen deutlich elaborierter. Die KI erklärte uns sehr kompetent, wieso ein generiertes Werbebild den Design-Prinzipien aus “Wie Design wirkt” entspricht, welche Farben bewusst gewählt wurden und welche Wirkprinzipien zur Anwendung kamen. Sie erklärte uns, welche Kreativitätstechnik sie angewendet hatte und welcher Witz einem Motiv zugrunde liegt. Nur: In den Designs selbst war davon nichts zu sehen.

Wenn zum Beispiel erklärt wurde, dass Blau gewählt wurde, um “Vertrauen, Klarheit und Rationalität” auszustrahlen, ergänzt durch Grün als “leichten Hoffnungsschimmer” und Orange als Zeichen von “warmer, aktiver Energie”, suchten wir im tatsächlich generierten Bild vergeblich nach den Farben Grün und Orange. Es wurde uns erklärt, warum ein Design nicht überladen sei und dass es in 3 Sekunden seine Botschaft vermittle (das stand irgendwo in den Kontext-Dateien). Das Bild selbst war aber genauso überladen wie im ersten Durchgang, und über die Botschaft mussten wir immer noch rätseln.

Was hier deutlich wird, ist hochinteressant: KI erkennt die Muster in den hochgeladenen Texten (z.B. aus unserem Buch) und kann sie elegant fortschreiben und kompetent klingende Sätze daraus stricken. Es handelt sich aber nicht um Praxiswissen, nicht um anwendbares Wissen. KI kann daraus neue Sätze generieren, dieses Wissen aber nicht anwenden.

Damit sind wir vermutlich an die grundlegendste Grenze von KI gestoßen: dem fehlenden (sinnlich-körperlichen) “Verstehen”. Wir lernen daraus, dass auch zusätzliches Kontext-Wissen wenig Verbesserung bringt und wir uns den Aufwand (und der war wirklich hoch!) sparen können. Die KI kann unser Buch sehr gut zusammenfassen, in Textform, aber sie lernt daraus nicht in dem Sinne, dass sie dieses Wissen auf konkrete Aufgaben anwenden kann.

Wobei uns die KI tatsächlich unterstützen kann und wobei nicht

Die große Arbeitsersparnis für unser Konzept wird es wohl eher nicht, wie wir aus diesem Experiment lernen. Hilfreich ist es sicher, die Anfangshypothesen zusätzlich mit KI zu generieren. Wichtig ist hier, dass man die KI erst Hypothesen entwickeln lässt, nachdem man selbst welche entwickelt hat, um sich nicht beeinflussen zu lassen. Es ersetzt aber trotzdem nicht das Querlesen in Nutzerforen, wo man auch ein gutes Gefühl bzw. ein “Bild” und damit oft schon eine Designidee dafür bekommt, was für Consumer bei einem bestimmten Angebot von Bedeutung sein könnte, welche Verheißungen inszeniert und welche Defizite im Design am besten vertuscht werden sollten.

Auch bei der Ideenentwicklung kann die KI gerne den ein oder anderen Vorschlag beisteuern. Ideen für Claims oder Naming lassen wir uns schon lange ergänzend von KI vorschlagen. Ideen der KI für Bilder können ebenfalls zur Inspiration beitragen, selbst wenn es nur die ein oder andere Idee ist – eine Bereicherung ist das auf jeden Fall. Die Diskussion und Bewertung der Designs durch die realen Kunden kann man sich jedoch nicht sparen. Selbst wenn die KI im Durchschnitt nicht völlig falsch lag, reicht das nicht für eine verlässliche Empfehlung. Auch der Transfer auf zum Beispiel ein anderes Medium oder eine andere Zielgruppe kann zur Inspiration taugen; es reicht aber nicht aus, ihn der KI allein zu überlassen.

Schon beim gezielten und im Detail gesteuerten Designentwickeln mit KI stellt sich die KI mitunter wie ein störrischer Esel an. Was für einen menschlichen Designer, dem man ein Briefing gibt, klar ist, wird von der KI auch mal gar nicht oder falsch verstanden. Ist das Ergebnis zufällig direkt brauchbar – was in diesem Experiment jedoch selten der Fall war –, kann man KI-Entwürfe auch ergänzend mit in die Labs geben. Auch kann es helfen, z.B. einen Style Guide aufzubereiten und als Quelle zum Abruf bereitzustellen, um Bilder zu erhalten, die bereits in Richtung der Designsprache eines Kunden geht, aber auch das wird nicht immer konsequent angewendet.

Es reicht aber nicht, die KI sozusagen mit freier Hand designen zu lassen. Auch die Kombination LLM plus Wissensdatenbank (unsere große Hoffnung) ändert daran wenig. Überwiegend wird der Forschungs- und Designprozess mit Unterstützung von KI daher bei uns auch in Zukunft so laufen, wie wir es bisher gehandhabt haben.

Das beste Ergebnis unseres Experiments ist aber: Wir wissen jetzt noch besser, an welchen Stellen wir im Prozess KI sinnvoll einsetzen können und an welchen nicht – da wird uns weder Hype noch übertriebene Skepsis in Zukunft irritieren können. Ist “KI-Kompetenz” nicht gerade, zu wissen, wo KI gerade nicht sinnvoll eingesetzt werden kann – und zu wissen, warum?

Für andere Aufgaben und andere Prozesse mag das Ergebnis allerdings anders ausfallen, sodass unser Experiment vermutlich nur bedingt generalisiert werden kann.

Unser Fazit

KI ist in unserem Prozess vor allem dort hilfreich, wo es um plausible Hypothesen, zusätzliche Ideen und Inspiration geht. Sie kann reale Kunden-Interaktion, belastbare Bewertung und die gestalterische Übersetzung komplexer Botschaften aber nicht ersetzen. Zusätzliche Wissensdatenbanken verbessern vor allem die Begründungen, nicht die praktischen Ergebnisse.

Beiträge aus diesem Blog zu ähnlichen Themen: