Silicon Sampling: Revolution oder Bullshit?

Lese­zeit: 4 Minu­ten

Kön­nen Large Lan­guage Models (LLMs) wie ChatGPT die Befra­gung von Men­schen aus­rei­chend gut simu­lie­ren? Ein genaue­rer Blick auf Bedeu­tung und Funk­tion natür­li­cher Spra­che bei Men­schen und Maschi­nen kann dar­auf eine Ant­wort geben.

Kürz­lich wurde ich um ein „Exper­ten­in­ter­view“ für eine Mas­ter­ar­beit gebe­ten, um über das Thema „Sili­con Sam­pling im Mar­ke­ting“ aus der psy­cho­lo­gi­schen Per­spek­tive zu spre­chen. Unter Sili­con Sam­pling ver­steht man syn­the­ti­sche, d.h. künst­lich durch ein LLM (Large Lan­guage Model) erzeugte Befragte oder Befragungsdaten.

Es geht dabei nicht um die Frage, ob Maschi­nen wie Men­schen den­ken, oder gar Bewusst­sein ent­wi­ckeln – da sind sich inzwi­schen die meis­ten Exper­ten einig, dass dies nicht der Fall ist oder jemals mög­lich sein wird, zumin­dest nicht mit der heute ver­wen­de­ten Tech­no­lo­gie. Viel­mehr geht es um die Frage, ob rein mit den mathe­ma­ti­schen Pro­ze­du­ren in Trans­for­mer-Model­len wie LLMs aus­rei­chend gute Resul­tate als Ersatz für die Befra­gung von Men­schen erzielt wer­den kön­nen, z.B. im Kon­text von Markt­for­schung oder Nutzertests.

LLMs schei­nen sich zunächst anzu­bie­ten, mensch­li­ches Ant­wort­ver­hal­ten zu simu­lie­ren: Sie ver­wen­den natür­li­che Spra­che, und ihre For­mu­lie­run­gen wir­ken oft erstaun­lich plau­si­bel. Mensch und Maschine „tref­fen“ sich gewis­ser­ma­ßen im Inter­face „natür­li­che Spra­che“. Daher lohnt zunächst ein Blick dar­auf, wel­che Funk­tion Spra­che für Men­schen hat, und wel­che für ein LLM, und wie sie jeweils unter­schied­lich „ver­ar­bei­tet“ wird.

Der Mensch und die Sprache

Men­schen gene­rie­ren kei­nen Sprach­out­put. Sie kom­mu­ni­zie­ren. Sie nut­zen Spra­che als Mit­tel zum Aus­tausch, um eine gemein­same Sicht mit ande­ren auf die Welt her­zu­stel­len (selbst dann, wenn wir alleine sind, den­ken wir Andere quasi ‚hinzu’). Dabei ist die zur Ver­stän­di­gung aus­ge­han­delte Spra­che mit ihren Wör­tern und ihrer Gram­ma­tik nur eines von vie­len Mit­teln, denn wir kom­mu­ni­zie­ren auch über den Kör­per und den kom­plet­ten sozia­len und mate­ria­len Kon­text. Das Regel­werk der Spra­che alleine wäre viel zu limitiert.

In der Kom­mu­ni­ka­tion ver­wei­sen wir – mehr oder weni­ger gut – auf Vor- und Nicht­sprach­li­ches, auf unser kör­per­li­ches In-der-Welt-Sein, unsere Bezie­hung zur Welt und zu ande­ren Men­schen, auf unsere Inten­tio­nen und Moti­va­tion, unsere situa­ti­ven Zustände und atmo­sphä­ri­schen Anmu­tun­gen, zudem schwingt immer ganz viel Unbe­wuss­tes mit.

Beim Ver­ste­hen von Spra­che legen wir das Gehörte oder Gele­sene (und viele wei­tere Hin­weise aus dem Kon­text) wie­derum ent­spre­chend unse­rer Sicht auf die Welt und unse­rer Erwar­tun­gen aus. Das kön­nen wir, weil wir selbst kör­per­lich in der Welt ver­an­kert sind und viele vor- und nicht­sprach­li­che Lebens­er­fah­run­gen mit unse­ren Kom­mu­ni­ka­ti­ons­part­nern teilen.

Die Maschine und die Sprache

Für die Maschine ist das Inter­face Spra­che etwas ande­res. Sie kom­mu­ni­ziert nicht. Sie sagt das wahr­schein­lichste nächste Wort auf Basis von hoch­kom­ple­xen Text­mus­tern vor­aus und ver­bleibt damit zu 100% auf der Ebene der Daten, die in der Spra­che als Spra­che ent­hal­ten sind. Sie ver­weist asso­zia­tiv auf andere Sprach-Bestand­teile in hoch­di­men­sio­na­len Vek­tor­räu­men, nicht aber auf nicht-sprach­li­che, z.B. kör­per­li­che oder atmo­sphä­ri­sche Erfahrungen. 

Wir selbst sind es dann wie­der, die Sinn und Bedeu­tung im maschi­nel­len Out­put zu erken­nen glau­ben (und ver­wech­seln ihn mit ‘Kom­mu­ni­ka­tion über etwas’), auch wenn er für die Maschine auf nichts außer­halb der nack­ten Wör­ter ver­weist. Sol­che Pro­jek­tio­nen füh­ren dazu, dass Men­schen ein LLM sogar als per­sön­li­chen Coach oder The­ra­peu­ten nut­zen kön­nen (sie behan­deln sich dann quasi selbst wie in einem Spie­gel). Mit ech­ter The­ra­pie hat dies natür­lich nichts zu tun.

Ein LLM ist damit ein mäch­ti­ges Instru­ment zur Ana­lyse und Vor­her­sage von Text­mus­tern. Blind bleibt es hin­ge­gen für den Sinn und die Bedeu­tun­gen, die Men­schen damit zum Aus­druck brin­gen wol­len und auf die sie ver­wei­sen, wenn sie mit ande­ren kommunizieren.

Diese mensch­li­che Ebene steckt gerade nicht in den rie­si­gen Text­bi­blio­the­ken, mit denen das LLM gefüt­tert wurde, denn unser ‘Inners­tes’ sedi­men­tiert sich nur zu einem sehr klei­nen Teil irgend­wann in Spra­che oder Text (oder lan­det gar im Inter­net, wo sie LLMs trai­nie­ren kann), und dann auch i.d.R. in hoch­ver­ar­bei­te­ter Form.

Sie lässt sich auch nicht hinzu-trai­nie­ren, denn vie­les lässt sich über­haupt nicht in Text­form ver­ar­bei­ten, wie leib­lich ver­spürte Atmo­sphä­ren oder unser im Kör­per gespei­cher­tes kno­wing-how wie z.B. Kla­vier­spie­len oder Fahr­rad­fah­ren. Vie­les kön­nen Men­schen nicht mal sagen. Vie­les (und für die Psy­cho­lo­gie oft das Ent­schei­dende) ist schlicht unsag­bar, und man­ches auch nur hilf­los unbestimmt.

Koh­len­stoff ver­sus Mathematik

Den­noch wirkt der sprach­li­che Out­put oft echt und mensch­lich und erklimmt immer neue Höchst­werte auf der Turing-Test-Skala. Könnte es daher nicht völ­lig aus­rei­chen, auf der rein text­lich-sta­tis­ti­schen Ebene Mus­ter zu erken­nen und vorherzusagen?

Die Ant­wort liegt auch hier in der unter­schied­li­chen Behand­lung von Spra­che. Die Maschine ahmt nach, was auf sprach­li­cher Ebene das Erwart­barste wäre. Das erzeugt eine hohe Plau­si­bi­li­tät, gerade weil KI in der Logik von Sta­tis­tik und Wahr­schein­lich­kei­ten ope­riert. So kann sogar rein sta­tis­tisch mög­li­ches mensch­li­ches (Sprach-)Verhalten manch­mal gut simu­liert wer­den, aus Zufall, oder wenn die Auf­gabe sehr nah an den Vor­la­gen im Trai­nings­ma­te­rial liegt.

Bei neu­ar­ti­gen Auf­ga­ben oder Situa­tio­nen (dies ist in For­schungs­pro­jek­ten in der Regel der Fall) pro­du­ziert das LLM aber immer nur sta­tis­tisch wahr­schein­li­che und damit plau­si­bel klin­gende Text-Fort­set­zun­gen. Hinzu kommt, dass ein syn­the­ti­sches Befra­gungs-Ergeb­nis nicht repro­du­zier­bar ist. Auch bei iden­ti­schen Prompts lie­fert ein LLM je nach Modell­ver­sion, Sys­tem­prompts, indi­vi­du­el­len Ein­stel­lun­gen oder inter­nen Zufalls­pro­zes­sen unter­schied­li­che Ant­wor­ten. Diese Varia­tion ist psy­cho­lo­gisch nicht erklär­bar, son­dern hat tech­ni­sche Gründe. 

Es gibt den schö­nen Begriff „Bull­shit“. Bull­shit wird defi­niert als etwas, das zwar plau­si­bel daher­kommt, bei dem es aber egal ist, ob es wahr ist oder nicht. Es lässt sich nie ent­schei­den, ob etwas eine gute Simu­la­tion ist oder ein­fach Unsinn. Das ist die Krux mit dem Bullshit.

Fazit

Als Psy­cho­loge sollte man jeden­falls eine gesunde Skep­sis behal­ten, wenn “Sili­con Sam­pling” als erst­hafte Alter­na­tive für die Befra­gung von Men­schen gehan­delt wird. Wenn ich her­aus­fin­den möchte, wie Men­schen den­ken und füh­len und warum sie zu einem bestimm­ten Schluss kom­men, reicht es nicht, dass etwas so klingt, als wür­den Men­schen es sagen. 

Ich kann das LLM sicher den­noch gebrau­chen, z.B. für eine erste Hypo­the­sen­ge­ne­rie­rung, wenn etwa das Thema schon ein­mal in ähn­li­cher Form unter­sucht und ver­öf­fent­licht wurde, oder wenn ich einen ers­ten Ein­druck erhal­ten möchte, wie sich eine bestimmte Ziel­gruppe anhö­ren könnte. Dann ist es aber eine Ergän­zung, und mir ist klar, dass es sich um die Kon­fa­bu­la­tion einer Maschine han­delt, die auf Ana­ly­sen von ver­öf­fent­lich­ten Tex­ten basiert. 

Das kann enorm hilf­reich sein. Es simu­liert aber weder aus­rei­chend gut noch zuver­läs­sig genug Befra­gun­gen von Men­schen, und – das ist wich­tig für den Dis­kurs – dies wird es auch nicht mit immer bes­se­ren oder spe­zi­el­ler trai­nier­ten Model­len tun, weil dadurch nur die text­li­che Plau­si­bi­li­tät wei­ter erhöht, nicht aber Erle­ben und Ver­hal­ten brauch­ba­rer simu­liert wird.

(ms)

Ergän­zun­gen und Anmerkungen:

* Das Bei­trags­bild wurde dem Thema ent­spre­chend (hier im Blog aus­nahms­weise) kom­plett mit KI erstellt (ich glaube, es war die­ses Gemini-Banana)

** Dass sich die Trai­nings­da­ten der LLMs immer auf die Ver­gan­gen­heit bezie­hen, wurde mir deut­lich, als ich ChatGPT vor dem Inter­view gefragt hatte, was denn unter “Sili­con Sam­pling im Mar­ke­ting” zu ver­ste­hen sei. Die Ant­wort: “Es han­delt sich bei Sili­con Sam­pling um Pro­dukt­mus­ter in Mini- oder Dum­my­form, die aus­se­hen wie echte elek­tro­ni­sche Geräte, aber oft nicht funk­tio­nal sind. Sie die­nen als hap­ti­sche, visu­elle oder demons­tra­tive Mus­ter, bevor ein Pro­dukt wirk­lich fer­tig ent­wi­ckelt oder pro­du­ziert ist. Der Begriff kommt daher, dass diese Mus­ter oft aus Sili­kon, Kunst­stoff oder 3D-Druck bestehen – also „Sili­con“ als Mate­rial, nicht Sili­zium (Halb­lei­ter)”. ChatGPT 5.1 muss mit dem Trai­ning schon fer­tig gewe­sen sein, bevor der Begriff sei­nen Weg ins Netz gefun­den hat. Klingt aber trotz­dem plausibel.

Share Post :

weitere Beiträge