Studie zu künstlicher Intelligenz Chatbots tendieren zu Selbstüberschätzung

2025-07-23     https://www.spiegel.de/wissenschaft/technik/chatbots-tendieren-laut-studie-zu-selbstueberschaetzung-a-946d474d-a95f-441a-ab68-a7a1bba3000c HaiPress

Bild vergrößern

ChatGPT- und Gemini-Apps (Symbolbild)

Foto: David Talukdar / ZUMA Press Wire / IMAGO

In mindestens einem Punkt ähneln sich Menschen und KI-Chatbots nachweislich: Sie überschätzen ihre Fähigkeit,Fragen korrekt zu beantworten. Allerdings können Menschen nach einer Quizrunde tendenziell besser einschätzen,wie viele ihrer Antworten richtig waren. Das zeigen Tests mit verschiedenen KI-Chatbots,die eine Forschungsgruppe um Trent Cash von der Carnegie Mellon University in Pittsburgh durchführte.

In ihrer Studie,die im Fachjournal »Memory & Cognition« veröffentlicht wurde,wollten Cash und Kollegen herausfinden,ob die Programme selbst einschätzen können,wie vertrauenswürdig ihre Antworten sind. Dazu gaben sie menschlichen Probanden und vier KI-Chatbots dieselben Aufgaben und forderten sie auf,jeweils die Anzahl ihrer korrekten Antworten abzuschätzen. Zu den Chatbots zählten ChatGPT,Google Gemini samt Vorgänger Bard sowie Claude Sonnet und Claude Haiku.

Zunächst ging es um Einschätzungen zukünftiger Ereignisse,wie die Ergebnisse in der National Football League (gewonnen,unentschieden,verloren) oder die Verteilung der Oscars auf Basis der Nominierungen. Die menschlichen Testpersonen und die vier Chatbots erhielten weitere Informationen,gaben dann Tipps ab und bewerteten anschließend,mit welcher Wahrscheinlichkeit sie richtig lagen.

»Ein bisschen wie der Freund,der schwört,gut im Billard zu sein,aber nie trifft«

ChatGPT und die menschlichen Studienteilnehmer schätzten die Anzahl ihrer richtigen Voraussagen der Football-Ergebnisse realistisch ein. Die Software Bard überschätzte seine Fähigkeit hingegen deutlich. Bards Nachfolger Gemini hingegen sagte die Anzahl richtiger Tipps bei den Oscargewinnern treffend voraus,während ChatGPT und die rund 100 menschlichen Teilnehmer zu optimistisch waren.

Ein weiterer Versuch erinnerte an das Spiel »Pictionary«: Dabei sollten Dinge anhand einfacher Zeichnungen erraten werden. Gemini nannte dabei in mehreren Durchgängen weniger als eine richtige Antwort pro 20 Zeichnungen. Schon vor den Durchgängen aber schätzte die KI-Software,dass sie etwa zehn richtige Antworten geben würde.

Die Selbstüberschätzung steigerte sich sogar noch: Nach der Präsentation aller Bilder schätzte der Bot rückblickend,durchschnittlich 14,4 richtige Antworten gegeben zu haben. »Gemini wusste nicht,dass er schlecht in ›Pictionary‹ war«,wird Cash in einer Mitteilung seiner Universität zitiert. »Es ist ein bisschen wie der Freund,aber nie trifft.«

data-area="text" data-pos="15">

In zwei weiteren Versuchen erweiterten die Forscher die Runde der KI-Chatbots um Claude Sonnet und Claude Haiku. Sie stellten Quizfragen,deren Antworten nur schwer oder gar nicht im Internet zu finden waren. Gemini und ChatGPT tendierten in dem Test dazu,die Anzahl ihrer korrekten Antworten deutlich zu überschätzen. Etwas maßvoller schätzte Claude Haiku die eigenen Fähigkeiten ein.

Nur Claude Sonnet und die rund 100 befragten Menschen beurteilten die eigenen Fähigkeiten vor und nach der Quizrunde tendenziell recht realistisch. »Wir wissen noch nicht genau,wie KI ihr Vertrauen einschätzt,aber sie scheint keine Selbstbeobachtung zu betreiben,zumindest nicht gekonnt«,schlussfolgert Co-Autor David Oppenheimer dementsprechend.

eru/dpa

Haftungsausschluss: Dieser Artikel wurde aus anderen Medien reproduziert. Der Zweck des Nachdrucks besteht darin, mehr Informationen zu vermitteln. Dies bedeutet nicht, dass diese Website ihren Ansichten zustimmt und für ihre Authentizität verantwortlich ist und keine rechtliche Verantwortung trägt. Alle Ressourcen auf dieser Website werden im Internet gesammelt. Der Zweck des Teilens dient nur dem Lernen und Nachschlagen aller. Wenn eine Verletzung des Urheberrechts oder des geistigen Eigentums vorliegt, hinterlassen Sie uns bitte eine Nachricht.