Skip to main content

ChatGPT & Co beim wissenschaftlichen Arbeiten

Autor: Prof. Dr. Thomas Kessel

ChatGPT kam, sah und eroberte die Herzen der Anwender

Roboter bearbeitet Texte

Vor gut einem Jahr erschien die ChatGPT 3.5 Version und änderte schlagartig das öffentliche Bild von KI. ChatGPT bietet einen kostenlosen, niedrigschwelligen Einstieg in die Welt der Large Language Models (LLM) und startete einen beispiellosen Hype um KI und Sprachmodelle (siehe auch [1] ). Die einfache Schnittstelle von ChatGPT und seine erstaunlichen Fähigkeiten sowie seine konsequente, globale Verfügbarkeit ermöglichten die schnelle Verbreitung dieser KI-basierten Technologie. Auch wenn es mittlerweile eine Reihe weiterer LLMs gibt, z.B. BARD/Gemini von Google, Luminous von Aleph Alpha, Llama2 von Meta gibt, so bleibt doch ChatGPT momentan der Marktführer, was die öffentliche Wahrnehmung betrifft. Weiterhin basieren diverse Microsoft Implementierungen auf der ChatGPT Technologie.

Nutzung von ChatGPT beim alltäglichen Umgang mit Texten 

Neben Forscherinnen und Forschern, Unternehmen und IT-Mitarbeitenden, wenden seitdem auch vielfältige Personengruppen tagtäglich ChatGPT an und entdecken so sehr unterschiedliche Ansätze, um ihre persönliche Produktivität beim Schreiben von  Texten deutlich zu erhöhen. Dies gilt bei der automatischen Zusammenfassung von Textabschnitten, der Generierung größerer Textpassagen, der interaktiven Anpassung oder der Korrektur eines Textentwurfs, um nur einige Beispiele zu nennen. ChatGPT erleichtert vielen Menschen den täglichen Umgang mit Texten.

ChatGPT: Chancen oder Risiken im akademischen Kontext

Auch im schulischen oder akademischen Bereich fanden sich sehr schnell viele begeisterte Nutzerinnen und Nutzer, die sich davon eine deutliche Hilfe beim Schreiben von Hausaufgaben, Seminararbeiten oder längerer wissenschaftlicher Arbeiten versprechen. Im Überschwang der Emotionen wurde sicherlich auch von Studierenden eine automatische Generierung qualitativ hochwertiger, eigenständiger Arbeiten erhofft (auch wenn die Realität und die Erfahrung dagegensprechen). Aus Sicht der akademisch Lehrenden öffnete sich hier möglicherweise eine Büchse der Pandora, in der Befürchtung, dass formal korrekte, aber inhaltsarme Dokumente auf Knopfdruck geliefert werden. In akademischen Reihen schwanken die Reaktionen zwischen Indifferenz (im Sinn von “LLM ist ein Werkzeug wie die Google-Suchmaschine”) und der Erwartung über eine weitere Absenkung des Niveaus wissenschaftlicher Arbeiten durch Plagiate sowie der damit erhöhte Anstrengungen für Gutachter diese zu identifizieren.  

Regeln und Richtlinien für ChatGPT im akademischen Umfeld

An den Hochschulen entwickelte sich sehr schnell eine Diskussion über die Chancen und Risiken von LLMs. Daraus ergibt sich beinahe zwangsläufig eine rechtlich verbindliche Regelung des Einsatzes von LLMs im Rahmen der Richtlinien für wissenschaftliches Arbeiten bei unbeaufsichtigten Prüfungsleistungen wie z.B. bei Seminar-, Studien-, Bachelor- oder Masterarbeiten. Bei einer typischen Diskussion der Regularien wird in einem ersten Schritt öfter die Einschränkung oder sogar das Verbot der Nutzung von LLMs bei wissenschaftlichen Arbeiten erwogen. Es erweist sich jedoch als schwierig, ein solches Verbot durchzusetzen und ggf. einen notwendigen rechtlichen gerichtsfesten Nachweis der Nutzung zu erbringen. 

In einem zweiten Schritt wird die Regelung meist offener und weniger restriktiv angelegt und der Fokus liegt dann zumeist auf der Offenlegung der betreffenden konkreten Prompts, Quellen oder Ergebnisse. Das Spannungsfeld besteht also in einer pragmatischen Abwägung zwischen den möglichen Risiken durch die unreflektierte und massive Nutzung von LLMs und den Chancen, die sich durch einen sinnvollen Umgang mit KI-basierten Technologien ergeben.

Erste Erfahrungen im Umgang mit LLMs

In den ersten Monaten nach Einführung von ChatGPT konnten erste Erfahrungen gesammelt werden, die sich insbesondere auf den Einsatz bei wissenschaftlichen Arbeiten auswirken.

  • Bei Wissensabfragen (closed book prompting) halluziniert ChatGPT häufig Quellen, d. h. diese Quellen werden erfunden. Aus diesem Grund müssen alle Quellenangaben überprüft werden.
  • Bei reinen Analyseabfragen, in denen im Prompt alle auszuwertenden Quellen im Klartext übergeben werden (open book prompting), produziert ChatGPT zumeist sinnvolle Antworten. Bei neueren Modellen lassen sich problemlos Textmengen im Umfang vom doppelten des deutschen Grundgesetzes (ca. 23.000 Wörter) in einem einzigen Prompt übergeben.
  • Die Aussagen von ChatGPT sind meistens - aber nicht immer - korrekt, was bedeutet, dass alle relevanten Argumentationsketten und Behauptungen nochmals anhand von Quellen geprüft werden müssen.
  • Die Eingaben der Kommandos zur Textgenerierung, die Prompts, müssen sehr spezifisch und konkret sein, um eben solche passenden Antworten zu erhalten. Oder umgekehrt formuliert: Je allgemeiner die Eingaben ausfallen, umso inhaltsleerer sind die Ausgaben.
  • Wenn man darauf besteht, dann werden auch (ursprünglich) korrekte Aussagen wieder zurückgenommen und korrigiert. 
  • ChatGPT ist NICHT primär eine Datenbank für wissenschaftliche Literatur, hierfür gibt es spezialisierte Literaturdatenbanken, die von intelligenten Assistenten unterstützt werden und die bei der Auswahl der “richtigen” Literatur helfen.
  • Die technologische Weiterentwicklung einzelner LLM Versionen, wie z.B. von ChatGPT 3.5 zu ChatGPT 4.0 oder von BARD zu Gemini geht sehr schnell. Ebenso ist zu vermuten, dass - dank der überall steigenden Investitionen in KI Forschung & Entwicklung - bald auch erste Ansätze einer General AI zu erwarten sind, die die kognitiven Fähigkeiten vieler Menschen übertreffen könnten.

Randbedingungen und Kontext für den Einsatz von LLMs

Neben den obigen Ausführungen über das Verhalten und die Funktionen einzelner LLMs, gibt es auch einige Beobachtungen über das allgemeine Nutzungsverhalten. 

  • Viele Nutzerinnen und Nutzer erstellen eine Art “mentales Modell” des LLM, welches die Fragen und Antworten kausal verknüpft und somit ein Erklärungsmodell schafft, da die zugrundeliegende Technologie zu abstrakt bleibt.
  • Studierende müssen erst lernen, die Schwächen und Stärken von LLM einzuschätzen. 
  • LLMs sind keine vorübergehende Modeerscheinung, sondern sie erzeugen einen klaren Mehrwert für viele Personenkreise und werden deshalb auch zukünftig eine wichtige Rolle spielen, insbesondere wenn sie mit anderen Werkzeugen, wie z.B. Office, oder anderen Informationssystemen verknüpft werden. Bei einer Textverarbeitung können z. B. eigenständige und individualisierte Verbesserungsvorschläge für Formulierungen oder Inhalte eingebunden werden.
  • Die Unterschiede bei Arbeiten von sehr guten, engagierten Studierenden zu unterdurchschnittlich motivierten und begabten Studierenden dürften sich voraussichtlich ausweiten, wenn die erste Gruppe konsequent und reflektiert LLMs einsetzt, um ihre Produktivität zu steigern, während die zweite Gruppe möglicherweise zu viel unreflektiert übernimmt.
  • LLMs sind ein sehr allgemeiner Ansatz und dürften in vielen Phasen des wissenschaftlichen Arbeitens durch spezialisierte Werkzeuge ersetzt werden, z. B. durch Literatur-Datenbanken oder angepasste LLMs, die für spezifische Aufgaben trainiert werden.
  • Der Nachweis der “Plagiierung” durch LLMs oder von “KI-generierten Texten” ist zurzeit sehr schwierig bis unmöglich und dies dürfte auch für die absehbare Zukunft auch so bleiben.
  • Die seriöse Literatur zur Einbindung von LLMs in das wissenschaftliche Arbeiten ist zurzeit im deutschsprachigen Raum sehr überschaubar, eine Ausnahme ist hier zu finden [2].

Vorschläge zur Nutzung KI-basierter Werkzeuge anhand eines typischen Vorgehensmodells

In den folgenden, typischen Phasen des wissenschaftlichen Arbeitens bieten sich für LLM- und KI-basierte Ansätze vor allem in der ersten Zeit Gelegenheit für Zeit- und Produktivitätsgewinne. Bei den späteren Aktivitäten wird es aufgrund einer wachsenden thematischen Fokussierung und stärkeren Praxisausrichtung schwieriger, automatisch allgemeine Beiträge zu generieren oder zu finden.

Literaturrecherche, Einarbeitung und Einleitung

Für die Suche nach geeigneter Literatur bieten sich spezialisierte Literatur-Datenbanken an, die die wissenschaftlichen Dokumente nach inhaltlichen Kriterien einordnen und vorsortieren, z. B. in Dokumente, die Grundlagen, Methoden oder aktuelle Ergebnisse liefern. LLMs können diese gefundenen Quellen gezielt ergänzen, aber - wie bereits erwähnt - müssen die referenzierten Dokumente rigoros geprüft werden.

Bei der Einarbeitung können an LLMs konkrete Fragen zu relevanten Theorien oder Modellen gestellt werden. Sinnvoll ist auch eine frühzeitige Einordnung oder Übersicht eines Anwendungsbereichs oder betreffenden Methoden, aber auch diese müssen wiederum - anhand der zitierten Quellen - geprüft werden.

Dank der frühzeitig identifizierten Begriffe, Methoden und Theorien könnten LLMs Einleitungen mit verschiedenen inhaltlichen Schwerpunkten und Ausrichtungen schreiben, aus denen dann die passende ausgewählt wird, was in der Regel einfacher und schneller ist, als eine eigene Version davon zu schreiben.

Grundlagen

Analog zur Einarbeitung kann die einschlägige Grundlagenliteratur kompakt, in einem vorgegebenen Format zusammengefasst und dargestellt werden. Insbesondere Definitionen können von verschiedenen Quellen zusammengestellt, verglichen und ggf. synthetisiert werden. Natürlich gilt auch hier wieder, dass die Zitate und Quellen wiederum überprüft werden müssen, was den Produktivitätsgewinn durch LLM teilweise reduziert.

Methoden

Sinnvoll ist sicherlich eine Methodendiskussion mit einer expliziten Aufzählung der jeweiligen Vor- und Nachteile, um auch den eigenen subjektiven Blick zu weiten und methodische Alternativen zu berücksichtigen, die man ansonsten vernachlässigt oder ignoriert hätte. Gut ist hier die Möglichkeit der direkten Interaktion zwischen Benutzer und dem LLM, um so gezielter Fragen zu einzelnen Methoden zu stellen oder das Für und Wider besser abwägen zu können. 

Praxis und Umsetzung

Inhaltlich dürften LLMs hier am wenigsten beitragen können, aber sie könnten trotzdem bei der Formulierung von Sachverhalten und der (wiederholten) Überarbeitung von Textpassagen helfen, wenn es sich um die bessere Darstellung der Fakten oder Zusammenhänge sowie die Betonung der Eigenbeiträge handelt.

Gut ist hier die Möglichkeit, die Inhalte unterschiedlich zu formulieren oder auch - mit geringem Aufwand - die Orientierung zu verändern. Erfahrungsgemäß fällt dies Schreibenden mit zunehmender Dauer und Beschäftigung mit dem Thema zunehmend schwer. Weiterhin kann ChatGPT auch gut übersetzen.

Zusammenfassung und kritische Reflektion

Basierend auf den Erkenntnissen der vorhergehenden Abschnitte können die Fähigkeiten des LLM zur Komprimierung von Ergebnissen genutzt werden. Herausfordernder ist der Umgang mit der kritischen Reflexion, die ein gewisses Maß an Meta-Reflexion und Distanz voraussetzt, was dem LLM zuerst vermittelt werden müsste, um ein entsprechendes Ergebnis zu erzielen. Aber auch hier könnte man gezielt nach den Schwächen des Vorgehens fragen und dies mit den Erkenntnissen der einschlägigen Best Practices verbinden.

Abschließend kann gesagt werden, dass LLM einen neuen faszinierenden Zugang zum wissenschaftlichen Arbeiten ermöglicht, sofern man sich deren Stärken und Schwächen bewusst ist und deshalb die zu berücksichtigenden Argumentationsketten und Quellen konsequent prüft. In diesem Fall würde es sowohl zu einer Verbesserung des inhaltlichen als auch des formalen Niveaus der Arbeiten führen und wäre damit nicht nur ein Zeit- und Produktivitätsgewinn für die einzelnen Benutzer, sondern für die Hochschule im Allgemeinen. Es wäre wünschenswert, wenn sich alle Stakeholder in diesem Sinne engagieren würden und so zu einer generellen “Win-Win-Situation” beitragen könnten.

Quellen:

  • [1] Dietzsch “ "Happy (first) Birthday ChatGPT!" - große Sprachmodelle und das Große Geld”, Blog des ZfKI
  • [2] Bucher, Holzweißig, Schwarzer “KI und wissenschaftliches Arbeiten”, Vahlen 2024
     

Blog von Prof. Dr. Thomas Kessel