Sprachen lernen mit Künstlicher Intelligenz

Interview mit Leo Sylvio Rüdian, Doktorand in der Forschungsgruppe "Bildung und Weiterbildung in der digitalen Gesellschaft"

Leo Sylvio Rüdian ist Informatiker und untersucht in seiner Promotion die Vermittlung von domainbasiertem Wissen über Lernsysteme. Ein Schwerpunkt liegt auf der Personalisierung von Onlinekursen. Im Rahmen einer Kooperation mit dem Goethe-Institut zeigt er, wie eine Künstliche Intelligenz (KI) Lehrende beim Sprachunterricht helfen kann, indem sie individuelles Feedback anhand objektiver Kriterien erzeugt. Ein Interview. 


Online-Sprachkurse erfreuen sich seit einigen Jahren einer wachsenden Beliebtheit, und es drängen immer mehr Anbieter auf dem Markt. Wie unterscheiden sich die verschiedenen Anbieter, zum Beispiel im Hinblick auf ihre Methode?

Das Angebot zum Sprachenlernen ist gewaltig: Es gibt dutzende Apps, tausende Anbieter und Millionen Lernende. Dabei unterscheiden sich die Angebote nach ihrem Inhalt und der Betreuung. Der Großteil beschränkt sich auf das Vokabellernen im Selbststudium. Duolingo setzt beispielsweise vollkommen auf das Lernen und Wiederholen von Wörtern und Sätzen. Dadurch lassen sich Lektionen dem Kenntnisstand und dem Sprachniveau der Nutzer anpassen. Doch die Anwendung der Sprache, indem Lernende eigene Texte schreiben, bleibt aus. Babbel, Busuu oder auch Deutsch Online des Goethe-Instituts bieten reichhaltige Lektionen an, in denen situatives Vokabular und Grammatiken gelernt und auch angewandt werden können. Die Online-Sprachkurse des Goethe-Instituts werden zusätzlich tutoriert, sodass der Lernende reichhaltiges Feedback von Tutoren erhält, um die Erstellung eigener Texte und auch die Aussprache zu üben. Das geht automatisiert einfach noch nicht gut. Für den Endanwender ist es eine Frage des Preises.

Wie kann ein Algorithmus Lehrende bei der Durchführung von tutorierten Online-Sprachkursen unterstützen?

Es gibt viele Aufgaben, die Tutoren immer wieder routineartig durchführen müssen. Diese sind zeitraubend, aber notwendig. Während Vokabeltests oder geschlossene Aufgaben, bei denen Sätze nach einer hinterlegten Musterlösung vervollständigt werden, bereits überwiegend automatisiert ausgewertet werden können, ist dies bei Freitexten von Lernern nicht möglich. Deren Benotung und Korrektur ist und bleibt aufwändig. Denn es gilt nicht nur, einfach die Fehler im Text zu finden. Ein Tutor muss entscheiden, ob ein Lernender das Gelernte angewandt hat, was zuvor im Kurs behandelt wurde. Und genau hier besteht das Problem: Ein Algorithmus muss die Kursinhalte kennen und muss überprüfen, ob das Gelernte auch angewandt wurde. Bei neuen Vokabeln ist das keine Herausforderung. Wurde allerdings auch ein neu gelerntes grammatikalisches Konstrukt angewandt? Ein Tutor kennt die Kurse und entwickelt dafür ein Gespür, was die guten von ausbaufähigen Nutzerabgaben unterscheidet. Algorithmen haben da ihre Probleme, da jeder Kurs anders ist. Zusätzlich gibt es immer wieder das Problem, dass Nutzer automatisierte Übersetzungen von Google Translate oder Deepl einreichen. Die Texte sind zweifellos oft sehr gut, doch solche Fake-Abgaben zu erkennen, ist auch für erfahrene Tutoren schwierig.

Wie seid Ihr bei dem Projekt vorgegangen? Welche Methode habt Ihr verwendet?

Wir kannten das Goethe-Institut bereits aus früheren Projekten und haben in mehreren Workshops ermittelt, wie wir mit unserer Expertise über Algorithmen und KI den Tutoren künftig helfen können. Dabei ist uns das Routine-Problem zur Bewertung von Freitextaufgaben aufgefallen. Könnte diese Bewertung automatisiert erfolgen, ersetzt das nicht die Tutoren, sondern gibt ihnen die Möglichkeit, die Lernenden individueller und intensiver zu betreuen. Als das Problem erkannt wurde, haben wir ein Konzept zu dessen Lösung entwickelt und anschließend einen Prototypen umgesetzt. Konkret ist ein Entscheidungsbaum entstanden, der sich verschiedene Eigenschaften der Texte ansieht und diese in Relation zu den Kursinhalten und anderen Nutzerabgaben stellt. Ob ein Nutzertext angemessen ist, kann damit mit einer Genauigkeit von 70% vorhergesagt werden. Zusätzlich gibt das Tool Feedback, damit die Tutoren Anhaltspunkte dafür erhalten, wie es zu seinem Ergebnis kommt. Dabei werden auch die angesprochenen Fakes erkannt. Hier werden nämlich oft komplexe grammatikalische Strukturen verwendet, die ein Sprachanfänger ohne Hintergrundwissen so nicht fehlerfrei anwenden könnte.

Eine 70%ige Übereinstimmung zwischen KI und Mensch klingt erstmal nicht viel. Kann der Wert noch erhöht werden?

In mehreren Projekten haben wir Verfahren bereits eingesetzt, um die Entscheidungen von Lehrenden nachzuahmen. Dabei ergibt sich ein interessantes Muster: Vergleichen wir die Übereinstimmung der Bewertungen der KI und der Lehrenden miteinander, kommen wir auf 70%. Als erfahrener KI-Wissenschaftlicher ist das ein eher schlechter Wert. Denn 3 von 10 Entscheidungen sind abweichend, das ist grundlegend zu viel. Ist das Ergebnis deshalb schlecht? Das haben wir durch ein Folge-Experiment ermittelt. Dort haben wir unterschiedliche Tutoren gebeten, identische Nutzerabgaben zu bewerten und erreichten in den ersten Kapiteln der Onlinekurse ebenso eine Übereinstimmung von 70% zwischen den Tutoren. Das ist erstaunlich, denn wir als Informatiker versuchen oft, die Genauigkeit durch viele Optimierungen zu verbessern, aber wir übertreffen diesen Wert einfach nicht. Wir haben hier ein Limit erreicht, das vollkommen natürlich zu sein scheint. Für künftige Studien wissen wir, dass 70% in Lernumgebungen kein schlechtes Ergebnis ist, sondern hierin der kleine Anteil an Subjektivität steckt, den Lehrende trotz vieler objektiv zu bewertender Merkmale in sich tragen und auch die KI verwirren. Zeitgleich können wir die Subjektivität gar nicht technisch abbilden.

Was bedeuten die Ergebnisse nun konkret für die Praxis? Kann Lehrpersonal also durch Algorithmen ersetzt werden?

Auch wenn unser Verfahren praxisnah ist, wird es die Tutoren nicht ersetzen. Im Gegenteil: Da die verwendeten Metriken sehr objektiv sind, werden die Bewertungen durch die Tutoren einheitlicher. Das ist ein wichtiges Qualitätskriterium, denn jeder möchte in einem Kurs, unabhängig von den eingesetzten Tutoren gleichbehandelt werden. Den typischen Lieblingsschüler kennt der Algorithmus nicht, er bleibt objektiv. Da das Verfahren aber auch nicht zu 100% optimales Feedback erzeugt, sind Tutoren weiterhin notwendig. Diese können das automatisierte Feedback nutzen, um schneller Entscheidungen treffen zu können, ohne sich händisch durch jeden Fehler zu arbeiten. Die gewonnene Zeit können Tutoren nutzen, um die Lernenden individueller zu betreuen, wofür sonst zu wenig Zeit ist. Oft übernehmen Tutoren auch die Bewertungen von Textabgaben unterschiedlicher Kurse. Immer zu wissen, welche Inhalte gelehrt wurden, ist eine Herausforderung. Doch der Algorithmus kennt sie und deckt nebenbei Lernende auf, die schummeln wollten. Denn sind wir ehrlich, einen Text durch einen automatischen Übersetzer zu erzeugen, das kann jeder. Doch wirklich lernen wird man dabei nichts. Letztendlich ist es das Ziel, dass die Studierenden bestmöglich lernen. Dabei hilft auch unser kleiner Schritt.

Vielen Dank für das Gespräch. 

Back to previous page