Fri Jul 25
Studie zu künstlicher Intelligenz Chatbots tendieren zu Selbstüberschätzung
2025-07-23
https://www.spiegel.de/wissenschaft/technik/chatbots-tendieren-laut-studie-zu-selbstueberschaetzung-a-946d474d-a95f-441a-ab68-a7a1bba3000c
HaiPress
Bild vergrößern
ChatGPT- und Gemini-Apps (Symbolbild)
Foto: David Talukdar / ZUMA Press Wire / IMAGO
In mindestens einem Punkt ähneln sich Menschen und KI-Chatbots nachweislich: Sie überschätzen ihre Fähigkeit,Fragen korrekt zu beantworten. Allerdings können Menschen nach einer Quizrunde tendenziell besser einschätzen,wie viele ihrer Antworten richtig waren. Das zeigen Tests mit verschiedenen KI-Chatbots,die eine Forschungsgruppe um Trent Cash von der Carnegie Mellon University in Pittsburgh durchführte.
In ihrer Studie,die im Fachjournal »Memory & Cognition« veröffentlicht wurde,wollten Cash und Kollegen herausfinden,ob die Programme selbst einschätzen können,wie vertrauenswürdig ihre Antworten sind. Dazu gaben sie menschlichen Probanden und vier KI-Chatbots dieselben Aufgaben und forderten sie auf,jeweils die Anzahl ihrer korrekten Antworten abzuschätzen. Zu den Chatbots zählten ChatGPT,Google Gemini samt Vorgänger Bard sowie Claude Sonnet und Claude Haiku.
Zunächst ging es um Einschätzungen zukünftiger Ereignisse,wie die Ergebnisse in der National Football League (gewonnen,unentschieden,verloren) oder die Verteilung der Oscars auf Basis der Nominierungen. Die menschlichen Testpersonen und die vier Chatbots erhielten weitere Informationen,gaben dann Tipps ab und bewerteten anschließend,mit welcher Wahrscheinlichkeit sie richtig lagen.
»Ein bisschen wie der Freund,der schwört,gut im Billard zu sein,aber nie trifft«
ChatGPT und die menschlichen Studienteilnehmer schätzten die Anzahl ihrer richtigen Voraussagen der Football-Ergebnisse realistisch ein. Die Software Bard überschätzte seine Fähigkeit hingegen deutlich. Bards Nachfolger Gemini hingegen sagte die Anzahl richtiger Tipps bei den Oscargewinnern treffend voraus,während ChatGPT und die rund 100 menschlichen Teilnehmer zu optimistisch waren.Ein weiterer Versuch erinnerte an das Spiel »Pictionary«: Dabei sollten Dinge anhand einfacher Zeichnungen erraten werden. Gemini nannte dabei in mehreren Durchgängen weniger als eine richtige Antwort pro 20 Zeichnungen. Schon vor den Durchgängen aber schätzte die KI-Software,dass sie etwa zehn richtige Antworten geben würde.
Die Selbstüberschätzung steigerte sich sogar noch: Nach der Präsentation aller Bilder schätzte der Bot rückblickend,durchschnittlich 14,4 richtige Antworten gegeben zu haben. »Gemini wusste nicht,dass er schlecht in ›Pictionary‹ war«,wird Cash in einer Mitteilung seiner Universität zitiert. »Es ist ein bisschen wie der Freund,aber nie trifft.«
data-area="text" data-pos="15">
In zwei weiteren Versuchen erweiterten die Forscher die Runde der KI-Chatbots um Claude Sonnet und Claude Haiku. Sie stellten Quizfragen,deren Antworten nur schwer oder gar nicht im Internet zu finden waren. Gemini und ChatGPT tendierten in dem Test dazu,die Anzahl ihrer korrekten Antworten deutlich zu überschätzen. Etwas maßvoller schätzte Claude Haiku die eigenen Fähigkeiten ein.
Nur Claude Sonnet und die rund 100 befragten Menschen beurteilten die eigenen Fähigkeiten vor und nach der Quizrunde tendenziell recht realistisch. »Wir wissen noch nicht genau,wie KI ihr Vertrauen einschätzt,aber sie scheint keine Selbstbeobachtung zu betreiben,zumindest nicht gekonnt«,schlussfolgert Co-Autor David Oppenheimer dementsprechend.
eru/dpa