Für mehr Transparenz und gegen gelernte Vorurteile – neues Open-Source-Sprachmodell

Bisher lag die Entwicklung KI-basierter Technologien zum Erkennen von Text und Sprache in der Hand großer Technologieunternehmen. Mit BLOOM soll das transparenter gestaltet werden.

Autor Lara Sophie Sander, 24.08.22

Übersetzung Mark Newton:

Die Ressourcen für transformative Technologien wie Künstliche Intelligenz liegen häufig bei ein paar wenigen, großen Technologieunternehmen wie Google, Meta oder Microsoft. Das bringt erhebliche Probleme mit sich: Für den allgemeinen Forschungsfortschritt, bei Aspekten wie Ressourcennutzung und Umweltschutz, aber auch in ethischen und sozialen Fragen. Gerade Anwendungen auf Basis des Maschinellen Lernens, die weltweit zur Übersetzung, Klassifizierung und Analysierung von Texten eingesetzt werden, können implizite Vorurteile reproduzieren basierend auf den Daten, mit denen sie trainiert werden.

Im Fachjargon nennt man solche Programme Large Language Models (LLMs). Das sind Algorithmen, die statistische Verknüpfungen zwischen Milliarden von Wörtern und Sätzen erlernen, um damit Zusammenfassungen und Übersetzungen zu erstellen, inhaltliche Fragen zu beantworten oder Texte zu klassifizieren. Dafür nutzen sie eine Architektur, die von den menschlichen neuronalen Netzwerken inspiriert ist. Die Algorithmen werden trainiert, indem die Werte – die Parameter – angepasst, einzelne Wörter ausgeblendet und Vorhersagen mit der Realität abgeglichen werden.

Große Technologieunternehmen nutzen die LLMs für tägliche Anwendungen wie ChatBots und Übersetzer. Damit haben sie aber auch großen Einfluss auf die Inhalte, mit denen die KI trainiert wird. Diese kann dann zum Beispiel Vorurteile nachahmen, die in den von Menschen geschriebenen Texten mitklingen, wie zum Beispiel rassistische und sexistische Verknüpfungen. Sie kann sogar Missbrauch und Selbstverletzung fördern. Zudem verstehen die Technologien den grundlegenden Sinn der menschlichen Sprache nicht, was dazu führen kann, dass die KI zusammenhangslose Texte produziert – die Modelle sind schließlich nur so gut, wie die Datensätze, auf denen sie beruhen. Zusätzlich ist die Entwicklung dieser KI-basierten Programme meist mit hohen Kosten verbunden, finanziell und ökologisch. Denn auch die enorme, für das Training benötigte Rechenleistung produziert einen nicht unwesentlichen ökologischen Fußabdruck.

Wie können KI-Sprachmodelle zugänglicher werden?

An BLOOM – einer neuen Open Source-KI zur Spracherkennung und Textverarbeitung – haben in einem Jahr etwa 1000 Forscher*innen aus knapp 60 Ländern und mehr als 250 Institutionen gearbeitet. Das umfassende LLM ist multilingual und insbesondere darauf ausgerichtet, transparent, für alle nutzbar und frei vom starken Einfluss von „Big Tech“ zur Reduzierung impliziter Vorurteile bei KI beizutragen. Ziel des Projekts ist es, KI besser zu verstehen, offener zu machen und so Maschinelles Lernen in verantwortlichere Bahnen zu lenken.

Der Verbund aus verschiedenen Wissenschaftler*innen und Institutionen nennt sich BigScience und hat in einem Jahr BLOOM mit einer Rechenleistung im Wert von 7 Milliarden US-Dollar aus öffentlichen Förderungen trainiert. Dabei haben die Forscher*innen fast zwei Drittel der Datenbank mit 341 Milliarden Wörtern aus 500 Quellen selbst ausgewählt. Das Ergebnis ist ein LLM mit 176 Milliarden Parametern, das Texte in 46 natürlichen und 13 Programmiersprachen generieren kann. Die KI soll in diversen Forschungsprojekten angewendet werden, Informationen aus historischen Texten herausfiltern oder biologische Klassifizierung vornehmen können.

Unter den Forscher*innen befinden sich überwiegend akademische Freiwillige, darunter auch Ethiker, Rechtswissenschaftler und Philosophen, aber auch Angestellte von Google und Facebook, die unabhängig das Projekt unterstützen. Die Sprachen für das Training der KI wurden im engen Austausch mit Muttersprachler*innen und Länderexpert*innen ausgewählt. Genauso war auch der gesamte Entwicklungsprozess multi-perspektivisch angelegt und darauf ausgerichtet, mögliche Vorurteile, soziale Auswirkungen, Grenzen und Einschränkungen von KI, aber auch potenzielle Verbesserungen mitzudenken.

Besonders das Problem der CO2-Emissionen, die bei KI üblicherweise sehr hoch sind, wird in Fachkreisen stark diskutiert. BigScience hat hierzu bisher noch keine Zahl veröffentlicht, plant diese jedoch bekannt zu geben.

Innovativer Ansatz – Diversere Outputs

So soll das Interface des neuen, offeneren Sprachmodells aussehen.

Letztlich war ein grundlegender Faktor bei der Entwicklung von BLOOM, viele und diversere Charakteristika in das Training der KI mit einzubinden: Wie ausgeprägt sind die stereotypischen Verknüpfungen? Wie stark sind die Vorurteile in den Funktionen des LLM gegenüber bestimmten Sprachen? Die Wissenschaftler*innen erhoffen sich dadurch die KI mit einem tieferen Verständnis von Sprache auszurüsten, um schließlich weniger schädigender Outputs durch KI-Systeme zu erreichen.

In einem Interview mit The Next Web erklärte Thomas Wolf, Mitgründer von Hugging Face, dem Startup, dass BigScience anführt: „Große ML [Machine Learning]-Modelle haben die Welt der KI-Forschung in den letzten zwei Jahren verändert, aber die enormen Rechenkosten, die für ihr Training erforderlich sind, haben dazu geführt, dass nur sehr wenige Teams tatsächlich die Möglichkeit haben, sie zu trainieren und zu erforschen.“ Aus diesem Grund sollen auch alle das neue System nutzen können, wenn sie den Bedingungen der Responsible AI License, die während des Projekts selbst entwickelt wurde, zustimmen. Der Download und Betrieb der KI benötigen jedoch eine starke Hardware-Leistung, deshalb arbeitet das Team auch an einer kleineren, weniger Hardware-intensiven Version.

Die Wissenschaftler*innen wollen auch in Zukunft mit dem Grundkonzept experimentieren und sind optimistisch, dass sich die Fähigkeiten noch weiter verbessern lassen, zum Beispiel mit weiteren Sprachen. Ähnliche Projekte haben diesen transparenten Ansatz von digitalen Technologien auch schon erfolgreich auf Klimaschutz oder Lieferketten angewandt. BLOOM kann daher als Ausgangspunkt für zukünftige, komplexere Strukturen und Systeme dienen, die ebenso mehr Transparenz und Offenheit im Maschinellen Lernen voranbringen.

EIBA
EIBA – Eine KI unterstützt bei der Kreislaufwirtschaft

Im Projekt EIBA wird eine KI entwickelt, die Altteile identifiziert und so dabei hilft, Produkte wiederzuverwerten.

Sustainabill: Die Cloud-Plattform für mehr Transparenz in den Lieferketten

Internationale Lieferketten werden immer länger. Menschenrechts- und Umweltverstöße sind damit auch schwerer erkennbar. Sustainabill schafft Anreize für Transparenz.

Citizen Science – Als Laie die Forschung unterstützen

Vögel zählen, Satellitenbilder auswerten, Luftwerte messen – viele Organisationen und Forschungseinrichtungen setzen auf Bürgerunterstützung bei der Forschungsarbeit. Neue digitale Tools machen die Mitwirkung an neuen Erkenntnissen für Laien-Forschende noch einfacher.

Torge Peters/ Studio Nørden
Civic Tech – Wie können Bürger*innen und Zivilgesellschaft den Umwelt- und Klimaschutz digital mitgestalten?

Sie gestalten Städte mit, machen Informationen zum Klima zugänglich für alle oder erheben selbst Umweltdaten - mit digitalen Tools nehmen Bürger*innen Einfluss auf globale Probleme. Wie aber kann das digitale Engagement gefördert werden? Und wie entsteht daraus politischer Druck?

Künstliche Intelligenz – Können wir mit Rechenleistung unseren Planeten retten?

Längst löst Künstliche Intelligenz komplexe Aufgaben und erleichtert unseren Alltag. Doch liefern die intelligenten Computerprogramme auch neue Lösungen für den Umwelt- und Klimaschutz?

Okular: Der kostenlose Dokumentenbetrachter ist die weltweit erste Software mit Umweltsiegel

Nicht nur die Hardware digitaler Technologien hat einen Einfluss auf den Energieverbrauch unserer Technologien, sondern auch die Software. Der blaue Engel schafft Transparenz.

Digital Human Rights Lab: Damit alle von der Digitalisierung profitieren

Das Digital Human Rights Lab, eine Initiative aus Uganda und Deutschland, erforscht, wie Menschenrechte in digitalen Räumen unterstützt werden können und teilt Wissen und Expertise.

Humanitarian OpenStreetMap: Freiwillige erstellen digitale Karten für die humanitäre Hilfe

Die meisten von uns sind daran gewöhnt, dass wir jederzeit topaktuelle, digitale Karten zur Hand haben. Doch das gilt nicht in allen Teilen der Erde - was insbesondere die Nothilfe erschwert. Tausende ehrenamtliche Kartograph*innen arbeitet daran, diese Lücken zu schließen.