Data Workers behind AI — Collage depicting human-AI collaboration in content moderation. Multiple arms, screens, computer cursors and eyes highlight the extensive human labor involved.

Datenarbeiter:innen – Die Arbeitsbedingungen und Bedeutung der Menschen hinter KI

Von prekären Zuständen bis hin zu geschlechtsspezifischen Herausforderungen reichen die Erfahrungen, die die Soziologin und Informatikerin Milagros Miceli im Rahmen ihrer Forschung gemacht hat. Wir haben mit ihr über die Arbeitswelt der Datenarbeiter:innen gesprochen und auch darüber, wie deren Arbeit Einfluss auf Technologien und Gesellschaft hat.

Was hat dich dazu gebracht, dich mit Datenarbeit zu beschäftigen, wie bist du zu diesem Forschungsfeld gekommen?

Ich bin Soziologin und Informatikerin, aber vor sechs Jahren, als ich am Weizenbaum-Institut anfing – und zwar in einer Forschungsgruppe, die bis dahin nur aus Informatiker:innen bestand – war ich nur Soziologin. Ich sage „nur“, weil man oft, wenn man als Sozialwissenschaftlerin bestimmte Räume betritt, anfangs skeptisch betrachtet wird – „okay, aber kannst du wirklich etwas beitragen, wenn du nicht mit den technischen Details vertraut bist? Kannst du wirklich über dieses Thema sprechen?“ Ich hatte noch nie in der Tech-Branche gearbeitet, hatte noch nie etwas mit Technik zu tun gehabt. Aber die Kolleg:innen in der Forschungsgruppe hatten viel mehr Vertrauen in das, was ich beitragen könnte, als ich selbst. Die haben alle an echt coolen Projekten gearbeitet – zu den von KI verursachten Schäden oder zu Ethik in KI – aber sie konzentrierten sich eher auf Bias-Minderungs-Tools und Erklärbarkeitstechniken. Aber ich wollte diese Probleme im Hinblick auf soziale Beziehungen betrachten. Ich wollte wissen, wer die Menschen hinter KI sind. Zuerst habe ich angefangen zu Datenwissenschaftlerinnen zu forschen, und dann wurde mir klar, dass es da einen Bereich gibt, der von vielen in der Branche völlig ignoriert wurde, nämlich Datenarbeit und der Datenarbeiter:innen.

Mittlerweile bist du Soziologin und Informatikerin. Wie blicken diese Disziplinen jeweils auf den Bereich der Datenarbeit, und wie hat es dir geholfen, dass du diese beiden kombinieren kannst?

Auch wenn ich einen Doktortitel in Informatik habe, bleibe ich in erster Linie Soziologin. Ich denke das hat mit den Methoden zu tun, die ich verwende, und auch mit den Fragen, die ich stelle. Da geht es in erster Linie um soziale Beziehungen, soziale Hierarchien und Machtverhältnisse. Ich habe den Eindruck, dass immer mehr Informatiker:innen und Forscher:innen im Allgemeinen den Wert darin erkennen.

Als ich vor sechs Jahren angefangen habe, war das nicht Mainstream. Typischerweise würden Arbeitssoziolog:innen über Löhne und Arbeitsbedingungen in der Datenarbeit sprechen, aber völlig losgelöst von den Konsequenzen, die diese auf die Computersysteme oder auf die Daten haben. Gleichzeitig würden Informatiker:innen über Datenarbeit sprechen – zum Beispiel Datenannotation und über Vorurteile. Und das alles unter der Annahme, dass Menschen voreingenommen sind, und dass wir deshalb diese Arbeiter:innen und ihre Subjektivitäten entsprechend einschränken müssen. Das waren die beiden Stränge, zwischen denen es aber kein Austausch gab. Und besonders die Frage nach den Subjektivitäten der Arbeiter:innen würde zu einer weiteren Prekarisierung der Arbeiter:innen führen. Denn wenn sie grundsätzlich als Bias-Überträgerinnen und als Gefahr für die Daten betrachtet werden, dann würde man sie noch mehr überwachen und einschränken. Und das ist in der Datenarbeit tatsächlich üblich.

Da kommt meine Arbeit ins Spiel, diese beiden Stränge zusammenzubringen und zu zeigen, dass das eine mit dem anderen zu tun hat. Wenn man einerseits den Arbeiter:innen mehr Raum für Beratung oder zum Austausch untereinander geben würde, könnte man bessere Daten erstellen, was tatsächlich für die Systeme von Vorteil wäre. Und andererseits gibt es, statt dem Ziel absolut "objektive Daten" zu erlangen, eine lange Tradition in den Sozialwissenschaften, die besagt, dass alle Daten voreingenommen sind. Es gibt keine Daten, die nicht voreingenommen sind. Die Frage ist, wie wir damit umgehen.

Wie lange gibt es diese Branche der Datenarbeit schon, wie stark ist sie gewachsen in den letzten Jahren und wie sind die Wachstumsprognosen?

Datenarbeit gibt es schon seit Ewigkeiten. Es stellt sich eher die Frage nach der Professionalisierung der Datenarbeiter:innen und auch nach dem Zeitpunkt, seitdem Datenarbeit in größerem Umfang existiert. Das können wir bis zur ersten Plattform für Datenarbeit oder Datenkommentierung – Amazon Mechanical Turk – zurückverfolgen, die seit 2005 existiert. Also fast 20 Jahre. Es ist interessant zu beobachten, wie sich die Entwicklungen im Bereich der Künstlichen Intelligenz seit dem Start von MTurk entwickelt haben, was durch die bloße Existenz von Arbeitskräften ermöglicht wurde, die plötzlich zu niedrigen Preisen, in großem Umfang und rund um die Uhr verfügbar waren. Es besteht also ein Zusammenhang zwischen der Fähigkeit, diese Arbeitskräfte in großem Umfang zu günstigen Preisen einzustellen und der Fähigkeit, die Systeme zu entwickeln, die wir heute kennen.

Es ist sehr schwierig, genau zu wissen, wie viele Datenarbeiter:innen es gibt. In einem im letzten Jahr veröffentlichten Bericht der Weltbank wird jedoch geschätzt, dass es weltweit zwischen 150 und 430 Millionen Datenarbeiter:innen gibt und dass diese Zahl in den letzten zehn Jahren exponentiell gestiegen ist. Die tatsächliche Zahl ist wahrscheinlich nicht allzu weit entfernt.

Dies widerspricht auch jenen Kommentaren, die vorhersagen, dass wir in Zukunft keine Datenarbeiter:innen mehr brauchen werden. Die Aufgaben mögen sich ändern, aber der Bedarf an Datenarbeiter:innen ist nach wie vor vorhanden – und er wächst.

Wie sehen die Arbeitsbedingungen aus, auf die du bei deinen Recherchen gestoßen bist?

Nun, die Bedingungen lassen sich als schlecht zusammenfassen. Das Hauptproblem liegt in der Auslagerung selbst, denn niemand fühlt sich verantwortlich, wenn etwas schief geht oder den Arbeiter:innen etwas passiert. In dem berühmten Beispiel von OpenAI, das die Datenarbeit über das Unternehmen Sama in Kenia auslagerte, wurden die Arbeiter:innen mit Material konfrontiert, das ihrer psychischen Gesundheit schadete, und in vielen Fällen wurden sie durch die Arbeit behindert. Wir arbeiten derzeit mit fünf dieser Arbeiter:innen zusammen, und sie haben uns gesagt, dass sie so stark an posttraumatischer Belastungsstörung (PTSD) leiden, dass sie nicht mehr in diesen Job zurückkehren oder eine andere Arbeit finden könnten. Als sie eine Entschädigung forderten, sagte Sama: „Nun, das Material stammt nicht von uns. Es war von OpenAI.“ Und OpenAI sagte: „Nun, wir kennen diese Arbeiter:innen nicht. Wir haben sie nicht eingestellt. Wir haben Sama angeheuert.“

Ein weiteres Problem ist die Tatsache, dass viele dieser Arbeitskräfte auf Plattformen wie MTurk, Prolific und Upwork arbeiten, was bedeutet, dass sie nur pro Aufgabe bezahlt werden und nicht für die Zeit, die sie für die eigentliche Arbeit benötigen. Und sie werden nur mit ein paar Cent pro Aufgabe bezahlt. Das öffnet den Raum für Preisdiskriminierung. Zum Beispiel würde ein:e Arbeiter:in hier in Deutschland für die gleiche Aufgabe anders bezahlt werden als jemand in Venezuela.

Eine andere Praxis, die auf Plattformen häufig vorkommt, sind Massenablehnungen. Das bedeutet, dass Kund:innen eine Aufgabe auf die Plattform stellen können, die dann von dem/der Arbeitnehmer:in erledigt wird. Aber: Wenn die Kund:innen in irgendeiner Weise mit den Daten unzufrieden sind, haben sie die Möglichkeit, einfach nicht dafür zahlen zu müssen. Die produzierten Daten dürfen sie aber trotzdem behalten. Und die Gründe dafür sind völlig willkürlich.

All diese Umstände macht es für Datenarbeiter:innen sehr schwierig zu wissen, wie viel sie am Ende der Woche oder des Monats bezahlt bekommen und ob sie zum Beispiel die Miete zahlen können. Es wurde auch versucht, diese Arbeit so darzustellen, dass Arbeitnehmer:innen diese nur zum Spaß als Zusatzeinkommen oder nur, um sich schöne Dinge zu kaufen ausüben. Es mag solche Fälle geben, aber das ist nicht die Realität von Millionen von Datenarbeiter:innen weltweit.

Du hast bereits die Preisdiskriminierung erwähnt, aber gibt es noch andere Unterschiede in den Arbeitsbedingungen zwischen dem globalen Norden und dem globalen Süden?

Sie unterscheiden sich hinsichtlich des Arbeitsschutzes. In einigen Ländern sind die Arbeitnehmer:innen besser geschützt als in anderen, oder es gibt Dinge, die die Plattformen tun können oder nicht tun können.

Dann gibt es noch andere, subtilere Dinge, wie z. B. die Zeit, die Arbeitnehmer:innen brauchen, um eine Aufgabe zu verstehen oder sich auf einer Plattform in einer Sprache zurechtzufinden, die sie oft nicht sprechen. Viele der Plattformen arbeiten mit Aufgaben, die nur auf Englisch formuliert sind. Die Anweisungen für eine Aufgabe sind manchmal nur eine Seite lang, aber ich habe auch schon Anweisungen mit bis zu 90 Seiten gesehen. Die am besten bezahlten Aufgaben haben in der Regel längere Anleitungen. Die Arbeitnehmer:innen werden nicht für die Zeit bezahlt, die sie benötigen, um solche Aufgaben zu übersetzen und zu verstehen.

Wie sieht es mit geschlechtsspezifischen Unterschieden bei der Arbeit aus?

Die allgemeinen Bedingungen sind in der Regel die gleichen. Aufgrund der geschlechtsspezifischen Anfälligkeit der/des Einzelnen kann diese Arbeit jedoch für nicht-männliche und auch für nicht-geschlechtliche Menschen schädlicher sein. Ich beziehe mich hier auf Fragen, die über das rein Wirtschaftliche hinausgehen.

In vielen Fällen prüfen sie Material, das als sensibel gilt, z. B. Bilder von Gewalt, Hassreden, sexuelle Gewalt. Als Transgender-Person, Frau oder eine nicht-binäre Person, berührt das Arbeiter:innen möglicherweise viel mehr, weil sie diese Art von Gewalt wahrscheinlich selbst erlebt haben. Deshalb verlassen sich viele der weiblichen und nicht-binären Arbeitnehmer:innen, die ich befragt habe, auf Facebook- oder WhatsApp-Gruppen, um sich gegenseitig vor bestimmten Aufgaben zu warnen. Denn bei vielen dieser Aufgaben gibt es nicht einmal eine Triggerwarnung, so dass man erst erfährt, ob die Bilder oder Daten schlecht für die psychische Gesundheit sind, wenn man schon angefangen hat. Es ist erwähnenswert, dass die meisten Plattformen die Arbeitnehmer:innen ausdrücklich davor warnen, die Aufgaben mit anderen Arbeitnehmer:innen zu besprechen. Aber auch wenn dies von den Plattformen nicht erlaubt ist, verlassen sich viele Datenarbeiter:innen auf Gruppen und Foren als eine Form des Selbstschutzes.

Welches Verhältnis zur Technologie beschreiben die Arbeitnehmer:innen dir gegenüber? Wirkt sich ihre Arbeit darauf aus, wie sie Technologien wie soziale Medien oder andere Plattformen nutzen?

Das hat sich geändert. In den ersten Interviews, die ich 2018 führte, fragte ich nach etwas, in dem das Wort „maschinelles Lernen“ vorkam, und viele Arbeitnehmer:innen wussten nicht, was das ist. „KI“ kam ihnen nicht als erstes in den Sinn, wenn sie ihre Arbeit beschreiben sollten.

Heute ist das anders. Die Arbeitnehmer:innen erzählen uns, dass ihre Kinder keine sozialen Medien nutzen oder ChatGPT verwenden dürfen. Auch sie selbst nutzen keine sozialen Medien und die Kamera ihres Laptops decken sie ab. Das Bewusstsein dafür, wie gefährlich und ausbeuterisch diese Branchen sind und wie unsere Daten an den ungewöhnlichsten Orten entwendet wurden, ist wirklich gewachsen.

Vor einem Jahr haben Datenschützer:innen aus Venezuela die Presse sogar anonym darüber informiert, dass sie Bilder von Menschen in ihren Häusern, die von Staubsaugerrobotern aufgenommen worden waren, als solche gekennzeichnet hatten. Sie warnen uns also auch.

Wie gehst du bei deiner Forschung vor? Was sind die Herausforderungen?

Ich gehe dorthin, wo die Arbeiter:innen sind und versuche, mich in die Arbeit hineinzuversetzen, auch, die Arbeit selbst zu tun, mit den Menschen zu sprechen und mit ihnen zu arbeiten. Ich weigere mich, ausschließlich von meinem Schreibtisch aus zu recherchieren, zu schreiben und über Datenarbeiter:innen zu sprechen. Ich forsche nicht über Datenarbeiter:innen, sondern ich versuche, mit ihnen zu forschen. Ich möchte nicht eine von denen sein, die einfach nur Daten aus ihnen extrahieren.

Daher haben wir an einem Projekt mit dem Namen „The Data Workers Inquiry“ gearbeitet, bei dem Datenarbeiter:innen an verschiedenen Orten der Welt mit uns gemeinsam forschen. Dies wird von einigen als gemeinschaftsbasierte Forschung bezeichnet. Die Datenarbeiter:innen stellen ihre eigenen Forschungsfragen in den Mittelpunkt und kontrollieren die Erzählung. Sie berichten über ihre Arbeit und ihre Erfahrungen aus eigener Perspektive und in ihrer eigenen Sprache. Wir beschäftigen 15 Datenarbeiter:innen in verschiedenen Regionen, die unterschiedliche Aspekte ihrer Arbeit untersuchen. Einige von ihnen untersuchen den Drogenmissbrauch unter ihren Mitarbeiter:innen aus psychologischen Gründen, andere befassen sich mit der Geschlechterperspektive oder der Migration. Eine andere Forscherin untersucht die Kommunikation zwischen Datenbearbeiter:innen und Kund:innen dahingehend, wie wichtig diese ist und welchen Nutzen sie für die Daten hat. Auch die Präsentation der Ergebnisse richtet sich nach den Vorlieben der Mitforscher:innen Es wird ein Magazin geben, Podcasts, eine Videodokumentation, einen Animationsfilm, Berichte, Essays, Bilder.

Die Herausforderungen bei dieser Arbeit ändern sich mit der Zeit. Am Anfang ging es natürlich darum, die Arbeiter:innen zu erreichen. Im Moment besteht die Herausforderung darin, durch all das gesund zu bleiben. Es ist emotional sehr anstrengend, daran zu arbeiten und in seinen Möglichkeiten eingeschränkt zu sein.

Es war auch nicht einfach, Mittel für das Data-Inquiry-Project zu bekommen, um den Datenarbeiter:innen den Stundensatz zu zahlen, den wir als Forscher:innen bekommen. Ich möchte wirklich, dass sie Eigentümer:innen der Produkte sind, die sie erstellen, und dass sie entsprechend honoriert werden. Denn letzten Endes ist Forschung ein Job – niemand macht das nur zum Spaß.

Der Hype um KI ist nun schon seit über einem Jahr zu beobachten. Hat das dazu beigetragen, dass deine Forschung und die Erfahrungen von Datenarbeiter:innen sichtbarer geworden sind? Was hat dich an diesem Diskurs über KI gestört?

Wenn der Hype dazu geführt hat, dass sich die Presse für meine Arbeit interessiert, dann hat das meiner Meinung nach damit zu tun, dass die Presse immer nach einem Gegenstück zum Hype sucht. Das ist also der Bereich, in dem ich in der Regel gefragt bin – um auf die BS zu antworten. Ich ziehe es vor, meine Forschung aus ihrer eigenen Perspektive zu diskutieren und nicht in Opposition zu etwas anderem. Aber ich betreibe in der Tat kritische Forschung. Das gehört also zu meinem Job.

Ich nutze alle Gelegenheiten, die sich mir bieten, um mit der Presse zu sprechen und diese Themen sichtbar zu machen. Ich möchte, dass dies in den Nachrichten erscheint. Aber ich denke auch darüber nach, warum ausgerechnet ich vor der Kamera sitze und nicht die Datenarbeiter:innen. Sie unterliegen natürlich oft NDAs und können nicht frei sprechen. Wenn sie es doch tun, ist das gut für die Zahlen und die Einschaltquoten, aber wenn die Arbeiter:innen mit Problemen oder Repressalien konfrontiert werden, reagiert niemand und greift nicht ein. Ich denke, die Data Workers' Inquiry füllt diese Lücke: Sie ist eine ungefilterte Sammlung von Berichten der Datenarbeiter:innen. Sie wird auch zu den Bedingungen der Arbeitnehmer:innen durchgeführt und folgt nicht den Dringlichkeiten der Presse oder der Jagd nach akademischen KPIs.

Glaubst du, dass diese Medienaufmerksamkeit zu einer Verbesserung der Arbeitsbedingungen beitragen wird? Und wenn nicht, was dann?

Ich denke, Sichtbarkeit ist eine großartige Sache, aber sie reicht bei weitem nicht aus. Was jetzt kommt, ist Druck auf die Politiker und Unternehmen. Druck, um Regelungen zu schaffen, die das Wohlergehen der Arbeiter:innen, der Angestellten und auch der Plattformarbeiter:innen, im Auge behalten.

Was mir nicht viel Hoffnung macht, sind diese falschen Krokodilstränen von Elon Musk und Sam Altman und der ganzen Bande. Sie jammern über die existenziellen Risiken der KI, blockieren dann aber jeden Versuch einer wirksamen und unabhängigen Regulierung und dass sie tatsächlich zur Rechenschaft gezogen werden. Und es macht mir keine Hoffnung, dass die meisten Machthaber:innen sie ernst nehmen.

Wir müssen der Öffentlichkeit auch bewusst machen, dass es hier nicht nur um zufällige Arbeiter:innen irgendwo auf einem anderen, weit entfernten Kontinent geht. Diese Arbeitnehmer:innen sind maßgeblich an der Entwicklung der Technologien beteiligt, die wir alle nutzen und die uns beurteilen, die über unseren Zugang zu Ressourcen entscheiden oder uns identifizieren werden. Sich darum zu kümmern bedeutet also, sich um uns alle zu kümmern, auch um unsere Familien, unsere Kinder und uns selbst. Ich glaube, das wird nicht deutlich genug, wenn wir darüber sprechen.

Wir müssen uns auch bewusster machen, wer die Unternehmen sind, die ungerechte oder potenziell schädliche KI-Systeme unterstützen – und sie dann boykottieren.

Was gibt dir Hoffnung?

Was mir Hoffnung macht, ist die jüngere Generation von Studierenden, die sich mehr und mehr für diesen Bereich interessiert. Die Leute aus der Informatik, die mehr als nur Technolog:innen sein wollen und den Wert der Zusammenarbeit mit anderen Disziplinen, wie den Sozialwissenschaften, erkennen.

Ich setze meine Hoffnung auch auf Bereiche außerhalb der akademischen Welt und der Big Tech, wie z. B. NROs, wo diese Themen außerhalb des Technokapitalismus betrachtet werden, aber auch nicht an die typischen Leistungskennzahlen gebunden sind, die in vielen Fällen die akademische Welt einschränken.

Glücklicherweise gibt es eine wachsende Tendenz, Technologien als Werkzeuge zu sehen, die uns nicht kontrollieren sollten, sondern die wir schaffen und zum Nutzen unserer Gemeinschaften einsetzen können. Und ich finde es toll, dass sich eine Vielzahl von Stimmen zu Wort meldet, die sonst nicht gehört werden – aus verschiedenen geografischen Regionen, indigenen und queeren Kreisen, von Arbeitergewerkschaften und Interessenverbänden. In diesen Räumen gibt es einen Wissensschatz, der es nicht in die Mainstream-Medien schafft, der aber so unglaublich wichtig für die Zukunft ist. Die Menschen in diesen Bereichen unterwandern den Status quo, und dafür bin ich sehr dankbar.

Woran wirst du als nächstes arbeiten?

Die Data-Workers-Inquiry wird am 20. Juni mit einer Veranstaltung beginnen, auf der wir die von den Datenarbeiter:innen erstellten Untersuchungen vorstellen werden.

Wir werden auch weiter an der Verbindung zwischen besseren Arbeitsbedingungen und besseren Daten arbeiten. Wir versuchen also, die Leistung bestimmter Datensätze zu messen und zu prüfen, welche Variationen dazu führen, dass diese Datensätze und diese Modelle besser abschneiden. Wird das Modell besser abschneiden, wenn man den Arbeitnehmer:innen mehr zahlt? Beeinflusst die Tatsache, dass man den Arbeitnehmer:innen Anweisungen in ihrer eigenen Sprache gibt die Daten, die sie produzieren? Erzeugen Arbeitnehmer:innen, die beim Unternehmen angestellt sind, bessere Daten als Personen, die für Plattformen arbeiten? Wir wollen Zahlen produzieren, um zunächst die Forscher:innen, dann aber auch die Praktiker:innen in der Industrie beeinflussen zu können. Denn nicht viele Ingenieur:innen oder KI-Unternehmen lesen oder vertrauen auf qualitative Forschung, sondern sie lesen Zahlen.

Wir arbeiten auch an einer Reihe von Leitlinien für akademische Auftraggeber:innen, die Datenarbeit auslagern wollen. Wir denken daran, diese Richtlinien bei Verbänden wie der DFG (Deutsche Forschungsgemeinschaft), aber auch bei der ACM einzureichen. Das ist die Association for Computing Machinery in den USA, die größte Vereinigung für Computerwissenschaften. Wir bemühen uns also um die Aufnahme in die Ethikkodizes der jeweiligen Verbände und der Ethikausschüsse bestimmter Institutionen, wie z. B. des Weizenbaum-Instituts. Hier versuchen wir, mit dem neuen Ethikausschuss zusammenzuarbeiten.

Vielen Dank für das Gespräch!

Dr. Milagros Miceli leitet die Forschungsgruppe „Daten, algorithmische Systeme, und Ethik“ am Weizenbaum-Institut. Ihre Arbeit konzentriert sich auf die ethischen und sozialen Auswirkungen der Entwicklung von Künstlicher Intelligenz (KI), insbesondere der Datenarbeit. Sie untersucht die Produktion von Ground-Truth-Daten für maschinelles Lernen (ML) mit besonderem Fokus auf Arbeitsbedingungen und Machtverhältnisse.

Das Gespräch führte Leonie Dorn

Dr. Milagros Miceli

Forschungsgruppenleiterin

Die Reihe künstlich&intelligent? setzt sich in Interviews und Beiträgen mit den neusten Anwendungen von generativen Sprachmodellen und Bildgeneratoren auseinander. Forschende am Weizenbaum-Institut gehen dabei auf die gesellschaftlichen Auswirkungen der Tools ein und begegnen den viel diskutierten Erwartungen und Ängsten mit aktuellen Studien und Forschungsergebnissen. Dabei wird auch der Begriff „Künstliche Intelligenz“ hinterfragt und im Geiste Joseph Weizenbaums die Allwissenheit und Macht dieser Systeme dekonstruiert. Der KI-Pionier und Kritiker, der einen der ersten Chatbots entwickelte, ist Namensgeber unseres Instituts.