Nachricht vom

Forschende des Wilhelm-Wundt-Instituts für Psychologie der Universität Leipzig haben unter der Leitung von Dr. Björn Hommel im Rahmen des Forschungsprojekts SYNTH KI-basierte Werkzeuge entwickelt, die arbeitsintensive Aspekte in den Verhaltenswissenschaften automatisieren. Dabei werden moderne Sprachmodelle darauf trainiert, wissenschaftliche Texte und psychologische Messinstrumente zu analysieren und zu vergleichen. Diese Technologie ermöglicht es unter anderem, Zusammenhänge zwischen verschiedenen Fragebögen vorherzusagen. In Teil 14 unserer Serie zur Nutzung Künstlicher Intelligenz im Uni-Kontext berichtet Hommel über seine Erfahrungen in dem Projekt.

Wie nutzen Sie Künstliche Intelligenz in Ihrer Forschung – und in welchem fachlichen Kontext?

Künstliche Intelligenz ermöglicht es uns, verschiedene Probleme in den Verhaltenswissenschaften anzugehen, die bislang aufgrund methodischer Einschränkungen nicht praktikabel lösbar schienen. Insbesondere im Bereich der psychologischen Messmethodik hat sich hierdurch eine Art mangelnder Forschungshygiene ergeben.

Beispielsweise ist es der Psychologie bisher nicht gelungen, eine einheitliche Systematik psychologischer Messverfahren aufzubauen. Allein die PsycTests-Datenbank der amerikanischen psychologischen Gesellschaft (APA) zählt derzeit über 90.000 Fragebögen, Tests und Checklisten. Viele davon werden nach ihrer Erstveröffentlichung nie wieder verwendet beziehungsweise zitiert. 

Die Psychologie als Wissenschaft ist jedoch stark auf diese Instrumente angewiesen, da sie zu unseren primären Methoden der Datenerhebung zählen und somit für den Erkenntnisgewinn in der Disziplin ausschlaggebend sind. Bislang existierten keine praktikablen Werkzeuge, um zu prüfen, ob neu vorgeschlagene Instrumente womöglich redundant zu bestehenden sind. Zudem deutet die geringe Replizierbarkeit von Forschungsergebnissen, oft als „Replikationskrise“ der Psychologie bezeichnet, darauf hin, dass die Entwicklung von Messinstrumenten keiner ausreichenden Qualitätskontrolle unterliegt. Mit dem kollaborativen DFG-Forschungsprogramm SYNTH gehen wir diesen und anderen metawissenschaftlichen Problemen in Zusammenarbeit zwischen den Universitäten Bern, mit Prof. Dr. Malte Elson, Witten/Herdecke, mit Prof. Dr. Ruben Arslan, und hier in Leipzig nach.

Was ermöglicht der Einsatz von KI in Ihrem Projekt, das zuvor nicht oder nur schwer möglich war?

Um redundante psychologische Fragebögen mit konventionellen Methoden zu identifizieren, müsste man sie derselben Stichprobe vorlegen und die Daten gesammelt auswerten. Die Beantwortung zehntausender Fragebögen kann man einzelnen Umfrageteilnehmenden selbstverständlich nicht zumuten. Aus diesem Grund haben wir ein KI-Modell trainiert, welches die empirischen Zusammenhänge zwischen Fragebögen vorhersagt. Nach gründlicher Evaluation zeigt sich, dass das Modell eine Genauigkeit erreicht, die der einer empirischen Pilotstudie menschlicher Umfrageteilnehmenden entspricht. 

Mit diesem Modell können wir nun substanzielle Überschneidungen zwischen Fragebögen und mangelhafte Qualitätsmerkmale in tausenden psychologischen Instrumenten identifizieren. Verdächtige Fälle lassen sich anschließend gezielt mit echten Befragungsdaten überprüfen. Unsere Hoffnung ist, dass solche Werkzeuge künftig als Frühwarnsystem im Peer-Review-Prozess eingesetzt werden und zu einer kumulativeren, qualitativ hochwertigeren psychologischen Forschung beitragen.

Welche Herausforderungen oder ethischen Fragen begegnen Ihnen beim Einsatz von KI in der Forschung?

Manchmal begegnen uns Skeptiker, die befürchten, KI könnte den wissenschaftlichen Prozess negativ beeinflussen. Ein blindes Vertrauen in KI-Modelle zur wissenschaftlichen Urteilsbildung ist selbstverständlich nicht hinnehmbar. Deshalb folgt unser Forschungsprogramm konsequent dem Human-in-the-Loop-Prinzip: KI-Modelle sind als reine Entscheidungsunterstützungssysteme zu verstehen. Sie können zwar helfen, Probleme aufzudecken; eine menschliche Überprüfung mithilfe empirischer Daten ist jedoch immer erforderlich. Zudem hat der Schutz sensibler Daten und geistigen Eigentums, etwa bei psychologischen Fragebögen, eine hohe Priorität. Daher trainieren wir alle Modelle auf lokalen Servern und geben keine vertraulichen Daten an kommerzielle Anbieter wie OpenAI weiter.

Welche Erfahrungen möchten Sie mit anderen Forschenden teilen, die überlegen, KI in ihrer Arbeit einzusetzen?

Ich möchte anderen Forschenden in den Sozial- und Verhaltenswissenschaften nahelegen, nach Möglichkeit die Nutzung kommerzieller Modelle in ihrer Forschung zu vermeiden. Mittlerweile gibt es zahlreiche Open-Source-Alternativen, die besser mit guter wissenschaftlicher Praxis vereinbar sind, da sie Transparenz und Replizierbarkeit der Ergebnisse fördern.

Wo sehen Sie Chancen und Nutzen, wo Schattenseiten und Risiken?  

Natürliche Sprache spielt in der Psychologie eine besonders große Rolle. Beispielsweise geht der lexikalische Ansatz davon aus, dass sich Persönlichkeitsmerkmale in Sprache manifestieren. Auf dieser Annahme entstand einst das Fünf-Faktoren-Modell der Persönlichkeit, eines der einflussreichsten Modelle der Psychologie. KI-Sprachmodelle, die eine bislang beispiellose Menge an Textdaten komprimieren, beinhalten daher mit hoher Wahrscheinlichkeit implizites Wissen über die menschliche Persönlichkeitsstruktur. Die methodisch kontrollierte Extraktion dieser impliziten Wissensstrukturen bietet neue Ansätze für die psychologische Grundlagenforschung.

Es gibt jedoch auch ernstzunehmende Gefahren für den psychologischen Forschungsprozess, die von KI-Sprachmodellen ausgehen. Eine der dringlichsten ist die Verunreinigung von Online-Panels durch KI-Bots. Eine kürzlich veröffentlichte Studie des Max-Planck-Instituts für Bildungsforschung kommt zu der Einschätzung, dass sich ein alarmierend hoher Anteil vermeintlicher Studienteilnehmender auf genau diese KI-Bots zurückführen lässt. Zudem scheint es keine einzelne, zuverlässige Methode zu geben, diese zu identifizieren. Sollten sich diese Befunde bestätigen, könnte dies die Glaubwürdigkeit aller psychologischen Studien infrage stellen, die aktuell laufen und auf Online-Panels angewiesen sind. Ein apokalyptisches Szenario, wenn man mich fragt.

Gab es in Ihrem Projekt einen Moment, in dem Sie durch den KI-Einsatz besonders überrascht wurden?

Ja, tatsächlich mehrere. Während meiner Promotion befasste ich mich mit Sprachmodellen zu Zwecken der psychologischen Diagnostik und Testkonstruktion. Es war 2020, und OpenAI hatte gerade GPT-2 veröffentlicht. In meiner ersten Arbeit mit Sprachmodellen trainierten wir GPT-2 darauf, Fragebogeninhalte für mehrere Persönlichkeitsmerkmale zu generieren. Heute mag das äußerst banal wirken, aber zu diesem Zeitpunkt schien es noch nahezu unvorstellbar.

Zwei Jahre später war ich erneut überrascht, als wir herausfanden, dass Sprachmodelle die empirischen Antwortmuster zwischen einzelnen Fragebogeninhalten sehr gut vorhersagen konnten. Diese Tatsache finde ich bis heute erstaunlich, und ich bin weiterhin unentschlossen, wie ich das einordnen soll. Im schlimmsten Fall sind Menschen einfach zu vorhersagbar.

Kommentare

Keine Kommentare gefunden!

Ihr Kommentar

Hinterlassen Sie gern einen Kommentar. Bitte beachten Sie dafür unsere Netiquette.