Eine Untersuchung zum Prompt Engineering und der Qualität von KI-gestütztem Feedback
von Lucas Jasper Jacobsen
Im Teilprojekt zwei haben wir uns eindringlich mit digitalen Reflexionsräumen für Studierende beschäftigt. Innerhalb der digitalen Reflexionsräume hat sich Feedback als essenziell herausgestellt. Dabei mussten wir, so wie viele andere Personen an Hochschulen weltweit, aufgrund fehlender personeller Ressourcen auf Peer- statt Experten-Feedback zurückgreifen. Deshalb entstand bei uns im Projekt die Frage: „Könnte KI-Feedback eine ökonomische und vielleicht sogar qualitativ hochwertige Alternative darstellen?“
Generative künstliche Intelligenz (GKI) zählt zu den potentesten Strukturen im Bereich des maschinellen Lernens (Abukmeil et al., 2021). Eines der prägendsten Frameworks innerhalb der GKI ist das der Generative Pretrained Transformer (GPT). Das wohl bekannteste Modell, ChatGPT, ist mit der Version GPT-4 das aktuell leistungsstärkste GPT auf dem Markt. Nach seiner Veröffentlichung hat ChatGPT innerhalb einer Woche mehr als eine Million Abonnenten gewonnen (Baidoo-Anu & Ansah, 2023). Obwohl ChatGPT seitdem in verschiedensten akademischen Kontexten genutzt wird (Stojanov, 2023), fehlt es an empirischen Studien, die die Qualität und den Einsatz dieser innovativen Systeme in der Hochschulbildung untersuchen (Crompton & Burke, 2023). In einer aktuellen Studie von Demszky et al. (2023) konnte gezeigt werden, dass Lehrkräfte die automatisiertes, formatives KI-Feedback erhielten, studentische Beiträge signifikant stärker akzeptierten und die Zufriedenheit der Studierenden mit dem Kurs stieg. Generell gilt Feedback als integraler Bestandteil von Bildungsprozessen in der Hochschule (Henderson et al., 2019), wobei die Qualität des Feedbacks sichergestellt werden sollte. Ein qualitativ hochwertiges Feedback zeichnet sich durch bestimmte Kriterien wie z.B. Konkretheit, Aktivierung und Empathie aus (Prilop et al., 2019). Jedoch fehlt es häufig an personellen und finanziellen Ressourcen zur Bereitstellung hochqualitativen Feedbacks (Demszky et al., 2023), weshalb KI-Feedback potentiell eine ökonomische Alternative darstellen kann. In der vorliegenden Studie gehen wir folgenden Fragestellungen nach: 1. Welche Art von Prompt wird benötigt, um eine hohe Qualität des KI-Feedbacks zu gewährleisten? 2. Welche Unterschiede zeigen sich zwischen Peer-, Expert:innen- und KI-Feedback hinsichtlich der Feedbackqualität und der inhaltlichen Korrektheit des Feedbacks?
In Anlehnung an Wittwer et al. (2020) formulierten wir zunächst ein Lernziel mit drei Fehlertypen. Anschließend entwickelten wir ein theoriegeleitetes Manual zur Erstellung hochqualitativer Prompts für generative KI. Um die besten Ergebnisse zu erzielen, haben wir verschiedene Prompt-Engineering-Ansätze in das Manual integriert (Kipp 2023, Lo 2023, ChatGPT & Enkin 2023). Wir nutzten unser Manual um drei Qualitätsstufen von Prompts (schlecht, mittel, gut) für ChatGPT zu erstellen und Feedback zum Lernziel zu erhalten. Die Qualität des KI-Feedbacks wurde mittels quantitativer Inhaltsanalyse, basierend auf einem Kodierungsschema, abgeleitet von Prilop et al. (2019), Prins et al. (2006) und Wu & Schunn (2021), durch drei geschulte Kodierer:innen kodiert. Daraufhin präsentierten wir das Lernziel 30 angehenden Lehrkräften im vierten Semester (Novizen), sieben Lehrkräfteausbilder:innen, zwei Professoren für Schulpädagogik, einem Lehrerseminarleiter und einem Schulleiter (Expert:innen) und baten sie, ebenfalls Feedback auf der Grundlage des hochqualitativen Prompts zu formulieren. Dieses Feedback wurde dann von denselben Kodierer:innen kodiert.
Der erste Prompt besaß laut unseres Manuals für Promptqualität eine niedrige, der zweite eine mittlere und der dritte eine hohe Qualität. Um das durch die drei Prompts generierte Feedback miteinander zu vergleichen, führten wir eine ANOVA mit Bonferroni-Posthoc-Tests durch. Unsere Ergebnisse zeigten signifikante Unterschiede zwischen den Prompts. Dabei beeinflusste die Qualität des Prompts direkt die Feedbackqualität: schlechte Prompts ergaben schlechtes Feedback, mittlere Prompts mittleres Feedback und gute Prompts gutes Feedback. Im Vergleich zeigte sich, dass Expert:innen und KI-Feedback signifikant besser als das von Noviz:innen waren. In zwei Kategorien übertraf das KI-Feedback sogar das Expert:innen Feedback signifikant.
Derzeit wird in der Hochschule meist Noviz:innen-Feedback in Form von Peer-Feedback verwendet, das jedoch nicht immer lernfördernd ist (Kluger & DeNisi, 1996). Darüber hinaus ist es für Expert:innen aufgrund mangelnder personeller und finanzieller Ressourcen schwierig, hochwertiges Feedback im Hochschulbereich zu geben (Demszky et al., 2023). KI-Feedback kann hier eine hochqualitative und zugleich kostengünstige Alternative darstellen. Ein besonders vielversprechendes Ergebnis unserer Studie ist, dass das von ChatGPT generierte Feedback die Qualität des Feedbacks von Novizen und sogar das der Expert:innen übertraf. Darüber hinaus unterstreicht unsere Studie die Bedeutung der Nutzung eines Manuals für hochqualitative Prompts beim Einsatz von ChatGPT.
Unser Paper findet ihr als Preprint hier. (Link einfügen: https://www.researchgate.net/publication/374265685_The_Promises_and_Pitfalls_of_ChatGPT_as_a_Feedback_Provider_in_Higher_Education_An_Exploratory_Study_of_Prompt_Engineering_and_the_Quality_of_AI-Driven_Feedback)