KI, mach doch den Job für uns! – Ein Experiment

Wir haben sys­te­ma­tisch getes­tet, wo KI in unse­rem For­schungs- und Design­pro­zess wirk­lich hilft – und wo nicht. Das Ergeb­nis ist ernüch­ternd und hilf­reich zugleich: KI simu­liert Wis­sen und Ver­ständ­nis erstaun­lich gut, kann die­ses Wis­sen aber nur begrenzt in trag­fä­hige Gestal­tung, Bewer­tung und Pra­xis­ent­schei­dun­gen über­set­zen. Genau diese Unter­schei­dung gehört für uns zur eigent­li­chen KI-Kompetenz.

Keine Lust, schon wie­der so eine Col­lage zu machen!

Die Col­la­gen für die Blog-Bei­träge hier und vor allem für die Haupt­sei­ten unse­rer Web­seite sind ziem­lich auf­wen­dig. Toll wäre es, wenn KI uns diese Arbeit abneh­men könnte. Kürz­lich benö­tig­ten wir zum Bei­spiel eine neue Col­lage zum Thema “Künst­le­ri­sche For­schung”. Wir haben die KI (Claude und ChatGPT in der jeweils neu­es­ten Ver­sion) im ers­ten Schritt alle 10 Col­la­gen auf unse­ren Sei­ten ana­ly­sie­ren las­sen. Anschlie­ßend sollte sie eine Col­lage im glei­chen Stil für das Thema “Künst­le­ri­sche For­schung” erstellen.

Bei der Ana­lyse zeigte sich, dass der Auf­bau aus Oval-Seg­men­ten und einige wei­tere Aspekte von bei­den LLMs rich­tig erkannt wur­den. Die Umset­zung in ein Design war den­noch ent­täu­schend. Mit den Oval-Seg­men­ten klappte es nicht so ganz. Die Col­lage ist chao­tisch. Es gibt Wie­der­ho­lun­gen und unde­fi­nier­bare Sym­bole. Teil­weise wur­den Bild­ele­mente aus den Vor­la­gen unver­än­dert über­nom­men. Die Far­ben stim­men nicht ganz. Auch das Thema “Künst­le­ri­sche For­schung” wurde ziem­lich platt illus­triert. Schade … da müs­sen wir die Col­la­gen wohl wei­ter­hin selbst machen.

Lass uns das mal rich­tig tes­ten, was KI für uns tun kann!

Wir haben die­sen klei­nen Test dann zum Anlass genom­men, ein auf­wän­di­ge­res, sys­te­ma­ti­sches Expe­ri­ment durch­zu­füh­ren. Unsere Moti­va­tion war, Berei­che zu fin­den, in denen wir KI bis­her nicht ein­set­zen und in denen sie uns eine echte Arbeits­er­leich­te­rung brin­gen könnte.

Grund­lage waren 7 reale Pro­jekte: con­sum­erLabs, die wir in den letz­ten Jah­ren gemein­sam mit unse­ren Kun­den durch­ge­führt hat­ten. Sie waren vom Pro­zess her ähn­lich und daher gut ver­gleich­bar: Diese 7 Pro­jekte bestan­den aus ins­ge­samt 42 mehr­stün­di­gen Work­shops mit rund 250 rea­len Per­so­nen und über 80 Stun­den Explo­ra­tion. Wir woll­ten den Out­put der KI aber nicht nur mit den End­ergeb­nis­sen die­ser Pro­jekte ver­glei­chen, son­dern mit den Ergeb­nis­sen jedes ein­zel­nen Teil­schritts im Ite­ra­ti­ons­pro­zess, um das Poten­zial von KI wirk­lich zu entdecken.

Was ist ein consumerLab?

Im con­sum­er­Lab wer­den Ange­bote, bei denen ein Kon­zept bereits grob steht, gemein­sam mit Kon­su­men­tin­nen und Kon­su­men­ten zu einer Pro­po­si­tion samt Ver­mark­tungs­stra­te­gie, Design und Wor­dings wei­ter­ent­wi­ckelt. Die für die­ses Expe­ri­ment her­an­ge­zo­ge­nen Labs bestan­den jeweils aus drei Schlei­fen mit je zwei Kun­den­work­shops: Auf Basis von Hypo­the­sen und gege­be­nen­falls vor­lie­gen­den Insights wur­den zunächst meh­rere Rou­ten ent­wi­ckelt und als kon­krete Mock­ups umge­setzt, etwa für Online-Teaser, Landing­pa­ges, Pop-ups, News­let­ter oder Social Media Ads – jeweils mit Vari­an­ten an Visu­als, Claims und Tex­ten. Diese wur­den anschlie­ßend mit Kun­din­nen und Kun­den dis­ku­tiert, ana­ly­siert, im Team-Review über­ar­bei­tet und redu­ziert, bis am Ende ein vali­dier­ter Pro­to­typ übrig blieb. (mehr zum con­sum­er­Lab hier)

Wir hat­ten bei die­sen Pro­jek­ten schon Hilfe von KI in Anspruch genom­men, bis­her aber nur als Tool zur Unter­stüt­zung bei der Umset­zung unse­rer Design-Ideen. Hand­ar­beit war meist trotz­dem noch nötig. Auch für ergän­zende Ideen für Claims oder Pro­dukt­na­men kam KI bereits regel­mä­ßig zum Einsatz.

Die Leit­frage des Expe­ri­ments war nun: Wel­che Schritte kann die KI dem­nächst an unse­rer Stelle durch­füh­ren? Oder: Wo kann sie uns im Pro­zess zusätz­lich unter­stüt­zen, wo sie es der­zeit noch nicht tut?

Wir haben dazu zunächst die ver­schie­de­nen Pro­zess­schritte iden­ti­fi­ziert. Diese haben wir die LLMs jeweils nach­ein­an­der und auf­bau­end auf den vor­he­ri­gen Schrit­ten aus­füh­ren las­sen. Das Daten­ma­te­rial wurde für jedes Pro­jekt iden­tisch auf­be­rei­tet. Auch die Prompts haben wir sorg­fäl­tig ent­wi­ckelt, damit sie bei jedem der 7 Pro­jekte iden­tisch ein­ge­ge­ben wer­den konn­ten. Für jedes Pro­jekt haben wir zudem die Designs, die in den rea­len Labs ent­wi­ckelt und mit rea­len Kon­su­men­tin­nen dis­ku­tiert wur­den, für die KI aufbereitet.

Do it!

Der Fahr­plan war, dass die KI bei jedem Schritt in etwa die Kennt­nisse besit­zen sollte, die wir auch an die­ser Stelle hat­ten. Dabei ging es grob um vier “Kompetenz”-Bereiche:

Psy­cho­lo­gi­sche Hypo­the­sen: Wie gut sind die Anfangs­hy­po­the­sen zu mög­li­chen Con­su­mer-Insights der KI zu einem Thema, die sie irgendwo aus dem Inter­net recher­chiert hat und aus denen wir dann die ers­ten 3 oder 4 ver­schie­de­nen Design­rou­ten ent­wi­ckeln? Wir neh­men zum Bei­spiel in einer Route an, es ginge den Kun­den darum, einen guten Deal zu machen, und in einer ande­ren Route, es gehe um mehr Bequem­lich­keit, die einem die­ses neue Ange­bot ver­spricht. Dafür recher­chie­ren wir oft selbst im Inter­net nach ver­füg­ba­ren Stu­dien zum Thema oder auch in Nut­zer­fo­ren, um zumin­dest eine nicht völ­lig dane­ben­lie­gende Grund­lage für die Ent­wick­lung der Rou­ten zu haben. Wie gut ist die KI in der Vorrecherche?

Ideen­ent­wick­lung: Wie pas­send und ori­gi­nell, und wie nah an den spä­te­ren Ergeb­nis­sen aus den rea­len Labs sind die Ideen für Designs und Claims, die die KI aus ihren Anfangs­hy­po­the­sen ent­wi­ckelt? Und wie gut sind sie, wenn sie unsere Hypo­the­sen nutzt, die wir tat­säch­lich in dem jewei­li­gen Pro­jekt hat­ten? Also: Wie gut ersetzt die KI die mensch­li­che Ideenentwicklung?

Bewer­tungs­pro­gnose: Wie gut ist die KI beim Pro­gnos­ti­zie­ren inklu­sive Begrün­dung, wie ein Design und ein Claim bei den Kon­su­men­ten im rea­len Lab abge­schnit­ten haben? Bei der ers­ten Pro­gnose hatte sie keine wei­te­ren Infos außer denen, die sie selbst “recher­chiert” hatte. Bei der zwei­ten Pro­gnose klär­ten wir sie bei jeweils 15 Design­ent­wür­fen dar­über auf, wel­che 5 gut und wel­che 5 schlecht von den Kon­su­men­tin­nen bewer­tet wur­den. Wie gut kann die KI also die Dis­kus­sion mit den Kon­su­men­ten über die Designs ersetzen?

Gestal­tung: Wie gut – pas­send, ori­gi­nell, gemäß Kri­te­rien guter Gestal­tung – ist das Design, das die KI aus den Ideen ent­wi­ckelt? Zuerst ohne Hin­weis auf die tat­säch­li­chen Ergeb­nisse des Labs, dann mit Kennt­nis der Bewer­tung der 15 Ent­würfe (s.o.). Ganz zum Schluss erhielt die KI die gesamte Aus­wer­tung von uns, inklu­sive vie­ler Ent­würfe, zu denen sie auch die Info erhielt, was genau an einem Ent­wurf gut oder schlecht bewer­tet wurde und warum. Auf die­ser Basis sollte sie neue Ent­würfe ent­wi­ckeln. Die Frage hier: Wie gut ersetzt die KI die Arbeit von Desi­gnern und Textern?

Wir haben die LLMs auch immer wie­der zu einer bes­se­ren Leis­tung her­aus­ge­for­dert, indem wir zum Bei­spiel einen zwei­ten Durch­lauf zur Design­ent­wick­lung durch­ge­führt haben – mit einem ergän­zen­den Prompt, mit dem wir sie dazu auf­for­der­ten, “beson­ders krea­tive oder lus­tige Designs” zu erstel­len, die ein “ganz ande­res Look&Feel als her­kömm­li­che Wer­be­bil­der” haben.

Erst­mal den Mate­ri­al­wust durch­fors­ten und analysieren

Wie gewohnt waren die ein­ge­setz­ten KI-Sys­teme sehr flei­ßig. Hätte es Sinn gemacht, der KI die Aus­wer­tung zu über­las­sen, hätte sie ihre Text- und Bild­mas­sen gerne selbst durch­le­sen und ana­ly­sie­ren kön­nen. Aber das nützt ja nichts: Wir muss­ten selbst ver­glei­chen. Also haben wir uns zunächst unab­hän­gig von­ein­an­der an die Aus­wer­tung gemacht.

Dabei inter­es­sierte uns zu jeder der 4 Fra­gen (s.o.) auch, inwie­weit sich die KI tat­säch­lich an unsere Anwei­sun­gen gehal­ten hat und wie kon­sis­tent sie arbei­tet. Macht sie immer das­selbe rich­tig und das­selbe falsch – oder immer etwas ande­res? Es inter­es­sierte uns auch, wie kon­se­quent sie ihre eige­nen Ideen in Designs über­setzt und wie kon­sis­tent sie Designs bewer­tet, wenn man einen zwei­ten Bewer­tungs-Durch­lauf ohne “Erin­ne­rung” an den ers­ten noch ein­mal durch­führt. Auch diese Ergeb­nisse waren wich­tig für die Ent­schei­dung, wel­che Pro­zess­schritte wir der KI ggf. dem­nächst kom­plett anver­trauen kön­nen und in wel­chen sie gut ergän­zen kann.

Ergeb­nis: Was kann KI uns im Ergeb­nis abnehmen?

Psy­cho­lo­gi­sche Hypo­the­sen: Die Anfangs­hy­po­the­sen zu Insights funk­tio­nier­ten ganz gut. Bei Hypo­the­sen reicht es ja auch, dass sie plau­si­bel sind. Sie müs­sen nicht tat­säch­lich stim­men; das soll ja erst getes­tet wer­den. Das ist eine Kom­pe­tenz, die gut zur KI passt. Hier hat­ten wir den Ein­druck, dass sie sogar Hypo­the­sen lie­fert, die inter­es­sant sind und auf die wir selbst nicht unbe­dingt gekom­men wären.

Ideen­ent­wick­lung: Die KI ent­wi­ckelt ihre Desi­gnideen sehr kon­sis­tent aus den Insights her­aus. Es sind auch teils inter­es­sante Anre­gun­gen dabei, auch für Claims. Teil­weise bleibt sie in den Ideen etwas vage. Sie ver­rät nicht kon­kret, wie die Bild­szene aus­se­hen soll und wel­ches Look&Feel sie haben sollte. Man muss dann noch viel eigene Fan­ta­sie­leis­tung hin­zu­fü­gen. Wird die Szene genau beschrie­ben, merkt man mit­un­ter bereits in der Vor­stel­lung, dass sie schwer zu rea­li­sie­ren sein dürfte, wenn sie nach den Kri­te­rien guten Designs noch funk­tio­nie­ren soll. Bei­spiel (Vor­schlag von Claude): “Eine Fami­lie auf dem Sofa, jemand öff­net die App – und fin­det sofort, was alle sehen wol­len”. Man ver­su­che das ein­mal in einem Bild unter­zu­brin­gen und nicht in einem Film.

Bewer­tungs­pro­gnose: Bei der Bild­be­wer­tung gibt es bereits Pro­bleme bei der Bil­der­ken­nung. Zwar kommt es mit­un­ter auch bei rea­len Kon­su­men­ten vor, dass sie auf einem Bild etwas Ent­schei­den­des nicht erken­nen oder etwas nicht so inter­pre­tie­ren, wie es gemeint war, sodass sie dann die Desi­gnidee nicht ver­ste­hen. Die LLMs erkann­ten aber auch Aspekte nicht, die von unse­ren Teil­neh­men­den in den Labs ohne Wei­te­res rich­tig erkannt wur­den. Ins­be­son­dere, wenn Bil­der eine Story beinhal­ten, etwas unge­wöhn­li­cher sind oder Andeu­tun­gen zum Bei­spiel an bekannte Memes ent­hal­ten, wer­den sie meist ver­kannt. Wenn die KI zum Bei­spiel einen Kof­fer auf einem Bild vor einer meer­blau gestri­che­nen Wand tat­säch­lich als im Meer befind­lich ver­or­tet, das Gips­bein eines im Strand­korb sit­zen­den Man­nes nicht bemerkt oder Gesichts­aus­drü­cke extrem falsch deu­tet, dann kön­nen die ent­schei­den­den Bild­aus­drü­cke gar nicht erst in die Bewer­tung einfließen.

Bei der Bewer­tung der 15 Bil­der ord­net die KI die Bil­der im Durch­schnitt und auch bei meh­re­ren Durch­läu­fen recht kon­sis­tent als “gut” oder “schlecht” ein. Es gibt aber immer wie­der Aus­rei­ßer. Für jede Bewer­tung haben die LLMs – so ken­nen wir sie – eine über­zeu­gend klin­gende Erklä­rung parat. Das gilt aller­dings auch dann, wenn im zwei­ten Durch­gang ein Bild als “schlecht” abge­wer­tet wurde, das im ers­ten Durch­gang noch als “gut” gelobt wurde. Sol­che Vor­komm­nisse las­sen die gesamte Bewer­tungs­leis­tung lei­der hin­fäl­lig wer­den. Ins­ge­samt wur­den bei allen Bewer­tungs­durch­läu­fen auch nur etwa die Hälfte der Bil­der, die in den rea­len Labs die Gewin­ner waren, unter den Favo­ri­ten gese­hen. Die Bewer­tungs­leis­tung ist also nicht aus­rei­chend, um auf das Urteil ech­ter Men­schen ver­zich­ten zu können.

Gestal­tung: Ja, es ist beein­dru­ckend, wie sich mit KI heute aus ein paar Sät­zen eine voll­stän­dige Wer­be­kam­pa­gne kre­ieren lässt, für die ein Desi­gner ver­mut­lich meh­rere Tage brau­chen würde – ein­mal ganz abge­se­hen vom Zeit­auf­wand für Foto­gra­fin, Models, Requi­si­ten und vom Rei­se­auf­wand der gan­zen Crew.

Bis­her nutz­ten wir KI, um eigene Desi­gnideen mit ver­schie­de­nen Bild­ge­ne­rie­rungs-Tools sehr gezielt und gesteu­ert in Designs zu über­set­zen. Dabei ist sel­ten ein Design direkt brauch­bar. Oft muss man dann doch Ein­zel­teile gene­rie­ren und in Pho­to­shop zusam­men­set­zen, die Stim­mung anpas­sen, viele Details kor­ri­gie­ren oder vorab eigene Skiz­zen als Vor­la­gen für die KI erstel­len. In die­sem Fall hatte die KI aber sozu­sa­gen freie Hand bei der gestal­te­ri­schen Umset­zung ihrer eige­nen Ideen.

Auf den ers­ten Blick sind auch die Ergeb­nisse hier beein­dru­ckend: Sie sehen nach ech­ter pro­fes­sio­nel­ler Wer­bung aus. Teils sind auch auf den zwei­ten Blick brauch­bare Visu­als dabei, oder zumin­dest Desi­gnideen, die man als Vor­lage oder Inspi­ra­tion auf­grei­fen kann. Das ist aber eher sel­ten. Bei den meis­ten Ent­wür­fen zei­gen sich auf den zwei­ten Blick eine ganze Menge Defizite:

👉 Die Bil­der sind oft ste­reo­typ: Sie ähneln ein­an­der stark im Motiv und auch atmo­sphä­risch. Teil­weise sind die abge­bil­de­ten Per­so­nen sogar die­sel­ben, und sie wir­ken stark redu­ziert auf wenige Gesichtsausdrücke.

👉 Es zeigt sich wenig Viel­falt und wenig Raf­fi­nesse im Sto­rytel­ling, zum Bei­spiel bei der Andeu­tung von Gefahr oder beim Humor.

👉 Sie wir­ken “glatt gebü­gelt” und schreien schon von wei­tem: “Ich bin Wer­bung!” Teil­weise sind sie auch über­la­den und wir­ken wie Wimmelbilder.

👉 Oft sind es schwa­che Bil­der, die ohne zen­trale Begriffe im Text für alles Mög­li­che ste­hen könn­ten. Sogar the­men­über­grei­fend könnte man das ein oder andere Bild aus­tau­schen, ohne dass es auf­fal­len würde, weil es ebenso für Ver­si­che­rung wie für Urlaub ste­hen könnte.

👉 Sie sind ein wenig “platt” – die Bot­schaft wird oft zu illus­tra­tiv umge­setzt oder sogar 1:1 aus dem Text über­setzt, ohne sinn­lich-kör­per­li­ches Vorstellungsvermögen.

👉 Das Design­pro­blem, eine viel­schich­tige Bot­schaft in einem ein­zi­gen Bild unter­brin­gen zu müs­sen, wird teils ein­fach mit zusätz­li­chen Tex­ten, Sym­bo­len und Schau­bil­dern gelöst, statt mit einer bild­li­chen Umset­zung. Die Designs wir­ken daher oft sehr überladen.

Die Auf­for­de­rung, beson­ders “krea­tiv” zu ent­wi­ckeln, funk­tio­niert gar nicht. Die Ergeb­nisse sind weder krea­tiv im Sinne einer beson­ders unge­wöhn­li­chen Bild­mo­tiv-Idee noch im Sinne eines außer­ge­wöhn­li­chen Stils oder sub­til intel­li­gen­ten Wit­zes. Statt­des­sen sind sie über­la­den und über­trie­ben. Sie ent­fer­nen sich belie­big vom Thema und sind gewollt schräg bis albern.

Gibt man dem LLM schließ­lich alle Ergeb­nisse – auch in visu­el­ler Form – mit der Auf­gabe, eine eigene Idee für ein ande­res Medium zu ent­wi­ckeln, dann gelingt es teils, noch neue Ideen zu ent­wi­ckeln, die eini­ger­ma­ßen pas­send zu den Ergeb­nis­sen sind. Diese hal­ten sich aber oft sehr nah an die Vor­la­gen und sind manch­mal sogar nur leichte Varia­tio­nen davon. Die KI hat auch keine Lösung für den Hin­weis gefun­den: “Im Unter­schied zum News­let­ter sollte das Bild­mo­tiv mehr Auf­merk­sam­keit erzeu­gen, da es nur kurz ange­schaut wird. Es darf auch unge­wöhn­li­cher sein, auch etwas pro­vo­kant, damit es zum Medium Insta­gram passt.” Auch wenn uns anschlie­ßend selbst­si­cher erklärt wurde, warum die­ses neue Design beson­ders gut zu Insta­gram passt.

Jetzt wol­len wir es noch­mal wis­sen: Das LLM wird mit zusätz­li­chem Know­how gefüttert

Da uns die Ergeb­nisse nach der Aus­wer­tung nicht wirk­lich zufrie­den­ge­stellt hat­ten – wir hat­ten uns ehr­li­cher­weise mehr erhofft –, haben wir noch einen wei­te­ren Test­durch­lauf ange­hängt. Viel­leicht fin­den wir ja doch noch ein Feld, in dem uns KI mehr als bis­her Arbeit abneh­men kann. Was wäre, wenn wir die KI mit umfang­rei­chem rele­van­tem Hin­ter­grund­wis­sen aus­rüs­ten und dann die Auf­ga­ben wiederholen?

Die Auf­ga­ben wur­den dazu als “Pro­jekt” ange­legt, das heißt: Das LLM erhielt neben den pro­jekt­be­zo­ge­nen Infor­ma­tio­nen und den Prompts im Chat zusätz­li­che und auf­wän­dig vor­be­rei­tete Dateien als eine Art Wis­sens­da­ten­bank, auf die es bei jedem Teil­schritt zugrei­fen sollte. Um die­sen Kon­text zu füt­tern, berei­te­ten wir eine Reihe von Dateien vor, unter ande­rem mit über­grei­fen­den psy­cho­lo­gi­schen Erkennt­nis­sen aus ver­gan­ge­nen Pro­jek­ten, mit Infor­ma­tio­nen zu den gewünsch­ten Ziel­for­ma­ten sowie mit einem Werk­zeug­kas­ten aus nütz­li­chen Krea­ti­vi­täts­tech­ni­ken. Außer­dem luden wir alle 630 Sei­ten unse­res Buchs “Wie Design wirkt” hoch.

Das Ergeb­nis war inter­es­sant: Bei der Hypo­the­sen­ge­ne­rie­rung und Ideen­ge­ne­rie­rung zeig­ten sich nur sehr geringe Unter­schiede zum ers­ten Durch­gang. Die waren ja auch im ers­ten Durch­gang bereits brauch­bar, ins­be­son­dere die Hypo­the­sen. Die gene­rier­ten Wer­be­de­signs waren aller­dings denen aus dem ers­ten Durch­gang auch sehr ähn­lich: zu ste­reo­typ, zu illus­tra­tiv. Gerade hier hat­ten wir uns mehr erwar­tet. Dafür waren die Begrün­dun­gen deut­lich ela­bo­rier­ter. Die KI erklärte uns sehr kom­pe­tent, wieso ein gene­rier­tes Wer­be­bild den Design-Prin­zi­pien aus “Wie Design wirkt” ent­spricht, wel­che Far­ben bewusst gewählt wur­den und wel­che Wirk­prin­zi­pien zur Anwen­dung kamen. Sie erklärte uns, wel­che Krea­ti­vi­täts­tech­nik sie ange­wen­det hatte und wel­cher Witz einem Motiv zugrunde liegt. Nur: In den Designs selbst war davon nichts zu sehen.

Wenn zum Bei­spiel erklärt wurde, dass Blau gewählt wurde, um “Ver­trauen, Klar­heit und Ratio­na­li­tät” aus­zu­strah­len, ergänzt durch Grün als “leich­ten Hoff­nungs­schim­mer” und Orange als Zei­chen von “war­mer, akti­ver Ener­gie”, such­ten wir im tat­säch­lich gene­rier­ten Bild ver­geb­lich nach den Far­ben Grün und Orange. Es wurde uns erklärt, warum ein Design nicht über­la­den sei und dass es in 3 Sekun­den seine Bot­schaft ver­mittle (das stand irgendwo in den Kon­text-Dateien). Das Bild selbst war aber genauso über­la­den wie im ers­ten Durch­gang, und über die Bot­schaft muss­ten wir immer noch rätseln.

Was hier deut­lich wird, ist hoch­in­ter­es­sant: KI erkennt die Mus­ter in den hoch­ge­la­de­nen Tex­ten (z.B. aus unse­rem Buch) und kann sie ele­gant fort­schrei­ben und kom­pe­tent klin­gende Sätze dar­aus stri­cken. Es han­delt sich aber nicht um Pra­xis­wis­sen, nicht um anwend­ba­res Wis­sen. KI kann dar­aus neue Sätze gene­rie­ren, die­ses Wis­sen aber nicht anwenden.

Damit sind wir ver­mut­lich an die grund­le­gendste Grenze von KI gesto­ßen: dem feh­len­den “Ver­ste­hen”. Jeden­falls ler­nen wir dar­aus, dass auch zusätz­li­ches Kon­text-Wis­sen keine Ver­bes­se­rung bringt und wir uns den Auf­wand (und der war wirk­lich hoch!) spa­ren kön­nen. Die KI kann unser Buch sehr gut zusam­men­fas­sen, aber sie lernt dar­aus nicht in dem Sinne, dass sie die­ses Wis­sen auf kon­krete Auf­ga­ben anwen­den kann.

Wobei uns die KI tat­säch­lich unter­stüt­zen kann und wobei nicht

Die große Arbeits­er­spar­nis für unser Kon­zept wird es wohl eher nicht, wie wir aus die­sem Expe­ri­ment ler­nen. Hilf­reich ist es sicher, die Anfangs­hy­po­the­sen zusätz­lich mit KI zu gene­rie­ren. Wich­tig ist hier, dass man die KI erst Hypo­the­sen ent­wi­ckeln lässt, nach­dem man selbst wel­che ent­wi­ckelt hat, um sich nicht beein­flus­sen zu las­sen. Es ersetzt aber trotz­dem nicht das Quer­le­sen in Nut­zer­fo­ren, wo man auch ein gutes Gefühl bzw. ein “Bild” und damit oft schon eine Desi­gnidee dafür bekommt, was für Con­su­mer bei einem bestimm­ten Ange­bot von Bedeu­tung sein könnte, wel­che Ver­hei­ßun­gen insze­niert und wel­che Defi­zite im Design am bes­ten ver­tuscht wer­den sollten.

Auch bei der Ideen­ent­wick­lung kann die KI gerne den ein oder ande­ren Vor­schlag bei­steu­ern. Ideen für Claims oder Naming las­sen wir uns schon lange ergän­zend von KI vor­schla­gen. Ideen der KI für Bil­der kön­nen eben­falls zur Inspi­ra­tion bei­tra­gen, selbst wenn es nur die ein oder andere Idee ist – eine Berei­che­rung ist das auf jeden Fall. Die Dis­kus­sion und Bewer­tung der Designs durch die rea­len Kun­den kann man sich jedoch nicht spa­ren. Selbst wenn die KI im Durch­schnitt nicht völ­lig falsch lag, reicht das nicht für eine ver­läss­li­che Emp­feh­lung. Auch der Trans­fer auf zum Bei­spiel ein ande­res Medium oder eine andere Ziel­gruppe kann zur Inspi­ra­tion tau­gen; es reicht aber nicht aus, ihn der KI allein zu überlassen.

Schon beim geziel­ten und im Detail gesteu­er­ten Design­ent­wi­ckeln mit KI stellt sich die KI mit­un­ter wie ein stör­ri­scher Esel an. Was für einen mensch­li­chen Desi­gner, dem man ein Brie­fing gibt, klar ist, wird von der KI auch mal gar nicht oder falsch ver­stan­den. Ist das Ergeb­nis zufäl­lig direkt brauch­bar – was in die­sem Expe­ri­ment jedoch sel­ten der Fall war –, kann man KI-Ent­würfe auch ergän­zend mit in die Labs geben. Es reicht aber nicht, die KI sozu­sa­gen mit freier Hand desi­gnen zu las­sen. Auch die Kom­bi­na­tion LLM plus Wis­sens­da­ten­bank (unsere große Hoff­nung) ändert daran wenig. Über­wie­gend wird der For­schungs- und Design­pro­zess mit Unter­stüt­zung von KI bei uns auch in Zukunft so lau­fen, wie wir es bis­her gehand­habt haben.

Das beste Ergeb­nis unse­res Expe­ri­ments ist aber: Wir wis­sen jetzt noch bes­ser, an wel­chen Stel­len wir im Pro­zess KI sinn­voll ein­set­zen kön­nen und an wel­chen nicht – da wird uns weder Hype noch über­trie­bene Skep­sis in Zukunft irri­tie­ren kön­nen. Ist “KI-Kom­pe­tenz” nicht gerade, zu wis­sen, wo KI nicht sinn­voll ein­ge­setzt wer­den kann?

Für andere Auf­ga­ben und andere Pro­zesse mag das Ergeb­nis aller­dings anders aus­fal­len, sodass unser Expe­ri­ment ver­mut­lich nur bedingt gene­ra­li­siert wer­den kann.

Unser Fazit

KI ist in unse­rem Pro­zess vor allem dort hilf­reich, wo es um plau­si­ble Hypo­the­sen, zusätz­li­che Ideen und Inspi­ra­tion geht. Sie kann reale Kun­den-Inter­ak­tion, belast­bare Bewer­tung und die gestal­te­ri­sche Über­set­zung kom­ple­xer Bot­schaf­ten aber nicht erset­zen. Zusätz­li­che Wis­sens­da­ten­ban­ken ver­bes­sern vor allem die Begrün­dun­gen, nicht die prak­ti­schen Ergebnisse.

Bei­träge aus die­sem Blog zu ähn­li­chen Themen:

Vor 3 Jah­ren: Unser Expe­ri­ment von 2023

Share Post :

weitere Beiträge