Für mehr Transparenz und gegen gelernte Vorurteile – neues Open-Source-Sprachmodell

Bisher lag die Entwicklung KI-basierter Technologien zum Erkennen von Text und Sprache in der Hand großer Technologieunternehmen. Mit BLOOM soll das transparenter gestaltet werden.

Übersetzung Mark Newton:

Die Ressourcen für transformative Technologien wie Künstliche Intelligenz liegen häufig bei ein paar wenigen, großen Technologieunternehmen wie Google, Meta oder Microsoft. Das bringt erhebliche Probleme mit sich: Für den allgemeinen Forschungsfortschritt, bei Aspekten wie Ressourcennutzung und Umweltschutz, aber auch in ethischen und sozialen Fragen. Gerade Anwendungen auf Basis des Maschinellen Lernens, die weltweit zur Übersetzung, Klassifizierung und Analysierung von Texten eingesetzt werden, können implizite Vorurteile reproduzieren basierend auf den Daten, mit denen sie trainiert werden.

Im Fachjargon nennt man solche Programme Large Language Models (LLMs). Das sind Algorithmen, die statistische Verknüpfungen zwischen Milliarden von Wörtern und Sätzen erlernen, um damit Zusammenfassungen und Übersetzungen zu erstellen, inhaltliche Fragen zu beantworten oder Texte zu klassifizieren. Dafür nutzen sie eine Architektur, die von den menschlichen neuronalen Netzwerken inspiriert ist. Die Algorithmen werden trainiert, indem die Werte – die Parameter – angepasst, einzelne Wörter ausgeblendet und Vorhersagen mit der Realität abgeglichen werden.

Große Technologieunternehmen nutzen die LLMs für tägliche Anwendungen wie ChatBots und Übersetzer. Damit haben sie aber auch großen Einfluss auf die Inhalte, mit denen die KI trainiert wird. Diese kann dann zum Beispiel Vorurteile nachahmen, die in den von Menschen geschriebenen Texten mitklingen, wie zum Beispiel rassistische und sexistische Verknüpfungen. Sie kann sogar Missbrauch und Selbstverletzung fördern. Zudem verstehen die Technologien den grundlegenden Sinn der menschlichen Sprache nicht, was dazu führen kann, dass die KI zusammenhangslose Texte produziert – die Modelle sind schließlich nur so gut, wie die Datensätze, auf denen sie beruhen. Zusätzlich ist die Entwicklung dieser KI-basierten Programme meist mit hohen Kosten verbunden, finanziell und ökologisch. Denn auch die enorme, für das Training benötigte Rechenleistung produziert einen nicht unwesentlichen ökologischen Fußabdruck.

Wie können KI-Sprachmodelle zugänglicher werden?

BigScience/HuggingFace

An BLOOM – einer neuen Open Source-KI zur Spracherkennung und Textverarbeitung – haben in einem Jahr etwa 1000 Forscher*innen aus knapp 60 Ländern und mehr als 250 Institutionen gearbeitet. Das umfassende LLM ist multilingual und insbesondere darauf ausgerichtet, transparent, für alle nutzbar und frei vom starken Einfluss von „Big Tech“ zur Reduzierung impliziter Vorurteile bei KI beizutragen. Ziel des Projekts ist es, KI besser zu verstehen, offener zu machen und so Maschinelles Lernen in verantwortlichere Bahnen zu lenken.

Der Verbund aus verschiedenen Wissenschaftler*innen und Institutionen nennt sich BigScience und hat in einem Jahr BLOOM mit einer Rechenleistung im Wert von 7 Milliarden US-Dollar aus öffentlichen Förderungen trainiert. Dabei haben die Forscher*innen fast zwei Drittel der Datenbank mit 341 Milliarden Wörtern aus 500 Quellen selbst ausgewählt. Das Ergebnis ist ein LLM mit 176 Milliarden Parametern, das Texte in 46 natürlichen und 13 Programmiersprachen generieren kann. Die KI soll in diversen Forschungsprojekten angewendet werden, Informationen aus historischen Texten herausfiltern oder biologische Klassifizierung vornehmen können.

KÜNSTLICHE INTELLIGENZ – KÖNNEN WIR MIT RECHENLEISTUNG UNSEREN PLANETEN RETTEN?

Wo werden KI-Anwendungen schon jetzt im Umwelt- und Klimaschutz eingesetzt? Worin bestehen besondere Chancen, aber auch Risiken in Bezug auf ökologische und soziale Aspekte? Und wie sehen zukünftige KI-Entwicklungen mit einem echten Mehrwert für Umwelt und Klima aus? Hier findest du Antworten.

Unter den Forscher*innen befinden sich überwiegend akademische Freiwillige, darunter auch Ethiker, Rechtswissenschaftler und Philosophen, aber auch Angestellte von Google und Facebook, die unabhängig das Projekt unterstützen. Die Sprachen für das Training der KI wurden im engen Austausch mit Muttersprachler*innen und Länderexpert*innen ausgewählt. Genauso war auch der gesamte Entwicklungsprozess multi-perspektivisch angelegt und darauf ausgerichtet, mögliche Vorurteile, soziale Auswirkungen, Grenzen und Einschränkungen von KI, aber auch potenzielle Verbesserungen mitzudenken.

Besonders das Problem der CO2-Emissionen, die bei KI üblicherweise sehr hoch sind, wird in Fachkreisen stark diskutiert. BigScience hat hierzu bisher noch keine Zahl veröffentlicht, plant diese jedoch bekannt zu geben.

Innovativer Ansatz – Diversere Outputs

BigScience/HuggingFace

So soll das Interface des neuen, offeneren Sprachmodells aussehen.

Letztlich war ein grundlegender Faktor bei der Entwicklung von BLOOM, viele und diversere Charakteristika in das Training der KI mit einzubinden: Wie ausgeprägt sind die stereotypischen Verknüpfungen? Wie stark sind die Vorurteile in den Funktionen des LLM gegenüber bestimmten Sprachen? Die Wissenschaftler*innen erhoffen sich dadurch die KI mit einem tieferen Verständnis von Sprache auszurüsten, um schließlich weniger schädigender Outputs durch KI-Systeme zu erreichen.

In einem Interview mit The Next Web erklärte Thomas Wolf, Mitgründer von Hugging Face, dem Startup, dass BigScience anführt: „Große ML [Machine Learning]-Modelle haben die Welt der KI-Forschung in den letzten zwei Jahren verändert, aber die enormen Rechenkosten, die für ihr Training erforderlich sind, haben dazu geführt, dass nur sehr wenige Teams tatsächlich die Möglichkeit haben, sie zu trainieren und zu erforschen.“ Aus diesem Grund sollen auch alle das neue System nutzen können, wenn sie den Bedingungen der Responsible AI License, die während des Projekts selbst entwickelt wurde, zustimmen. Der Download und Betrieb der KI benötigen jedoch eine starke Hardware-Leistung, deshalb arbeitet das Team auch an einer kleineren, weniger Hardware-intensiven Version.

Die Wissenschaftler*innen wollen auch in Zukunft mit dem Grundkonzept experimentieren und sind optimistisch, dass sich die Fähigkeiten noch weiter verbessern lassen, zum Beispiel mit weiteren Sprachen. Ähnliche Projekte haben diesen transparenten Ansatz von digitalen Technologien auch schon erfolgreich auf Klimaschutz oder Lieferketten angewandt. BLOOM kann daher als Ausgangspunkt für zukünftige, komplexere Strukturen und Systeme dienen, die ebenso mehr Transparenz und Offenheit im Maschinellen Lernen voranbringen.

Für mehr Transparenz und gegen gelernte Vorurteile – neues Open-Source-Sprachmodell

Bisher lag die Entwicklung KI-basierter Technologien zum Erkennen von Text und Sprache in der Hand großer Technologieunternehmen. Mit BLOOM soll das transparenter gestaltet werden.

Wie können KI-Sprachmodelle zugänglicher werden?

KÜNSTLICHE INTELLIGENZ – KÖNNEN WIR MIT RECHENLEISTUNG UNSEREN PLANETEN RETTEN?

Wo werden KI-Anwendungen schon jetzt im Umwelt- und Klimaschutz eingesetzt? Worin bestehen besondere Chancen, aber auch Risiken in Bezug auf ökologische und soziale Aspekte? Und wie sehen zukünftige KI-Entwicklungen mit einem echten Mehrwert für Umwelt und Klima aus? Hier findest du Antworten.

Innovativer Ansatz – Diversere Outputs

MARKIERT MIT

EIBA – Eine KI unterstützt bei der Kreislaufwirtschaft

Sustainabill: Die Cloud-Plattform für mehr Transparenz in den Lieferketten

Citizen Science – Als Laie die Forschung unterstützen

Civic Tech – Wie können Bürger*innen und Zivilgesellschaft den Umwelt- und Klimaschutz digital mitgestalten?

Künstliche Intelligenz – Können wir mit Rechenleistung unseren Planeten retten?

Okular: Der kostenlose Dokumentenbetrachter ist die weltweit erste Software mit Umweltsiegel

Digital Human Rights Lab: Damit alle von der Digitalisierung profitieren

Humanitarian OpenStreetMap: Freiwillige erstellen digitale Karten für die humanitäre Hilfe

Plastic Ocean – Plastikinseln im Meer

Civic Tech – Wie können Bürger*innen und Zivilgesellschaft den Umwelt- und Klimaschutz digital mitgestalten?

Künstliche Intelligenz – Können wir mit Rechenleistung unseren Planeten retten?

eFriends – Strom mit den Nachbarn teilen

PFANDGEBEN – Flaschenpfand per App an Bedürftige spenden

Deep Green beheizt mit Rechenzentren Schwimmbäder

Handy spenden und Leben retten: „Wir packen’s an“ sammelt alte Smartphones für Flüchtende

Wer weiß was über die Weißen Haie im Mittelmeer?

Mit der App Well Beyond können Menschen in abgelegenen Gebieten Kenias ihre Wasserversorgung selbst in die Hand nehmen

Essbare Elektronik: Mit verdaulichen Robotern und nahrhaften Drohnen Elektroschrott reduzieren

Für mehr Transparenz und gegen gelernte Vorurteile – neues Open-Source-Sprachmodell

Bisher lag die Entwicklung KI-basierter Technologien zum Erkennen von Text und Sprache in der Hand großer Technologieunternehmen. Mit BLOOM soll das transparenter gestaltet werden.

Wie können KI-Sprachmodelle zugänglicher werden?

KÜNSTLICHE INTELLIGENZ – KÖNNEN WIR MIT RECHENLEISTUNG UNSEREN PLANETEN RETTEN?

Wo werden KI-Anwendungen schon jetzt im Umwelt- und Klimaschutz eingesetzt? Worin bestehen besondere Chancen, aber auch Risiken in Bezug auf ökologische und soziale Aspekte? Und wie sehen zukünftige KI-Entwicklungen mit einem echten Mehrwert für Umwelt und Klima aus? Hier findest du Antworten.

Innovativer Ansatz – Diversere Outputs

MARKIERT MIT

Das könnte Dich auch interessieren

EIBA – Eine KI unterstützt bei der Kreislaufwirtschaft

Sustainabill: Die Cloud-Plattform für mehr Transparenz in den Lieferketten

Citizen Science – Als Laie die Forschung unterstützen

Civic Tech – Wie können Bürger*innen und Zivilgesellschaft den Umwelt- und Klimaschutz digital mitgestalten?

Künstliche Intelligenz – Können wir mit Rechenleistung unseren Planeten retten?

Okular: Der kostenlose Dokumentenbetrachter ist die weltweit erste Software mit Umweltsiegel

Digital Human Rights Lab: Damit alle von der Digitalisierung profitieren

Humanitarian OpenStreetMap: Freiwillige erstellen digitale Karten für die humanitäre Hilfe

Meist Gelesen