Masakhane: KI und maschinelles Übersetzen für die Transformation Afrikas

Südafrika hat elf Amtssprachen - daneben werden aber noch viele weitere, nicht-amtliche Sprachen gesprochen.

Afrikanische Sprachen sind in der digitalen Welt wenig oder gar nicht repräsentiert. Millionen Sprecher*innen von Kiswahili, isiZulu, Tshiluba und Co. sind damit von digitalen Möglichkeiten und Informationen ausgeschlossen. Ein Open-Source-Projekt tüftelt deshalb an KI-Lösungen für maschinelle Übersetzungen.

Autor Katie Cashman:

Übersetzung Katie Cashman, 06.02.20

Masakhane bedeutet „Wir bauen gemeinsam auf“ in isiZulu, einer von 2.140 Sprachen, die auf dem gesamten afrikanischen Kontinent gesprochen werden. Außerdem ist das der Name eines kontinentübergreifenden Open-Source-KI-Projekts. Das Masakhane-Projekt hat die Entwicklung neuronaler maschineller Übersetzungssystemen zum Ziel, mit denen die afrikanischen Sprachen auf die technologische Landkarte gebracht und die vielfältigen und zahlreichen Sprachpopulationen Afrikas miteinander verbunden werden sollen. Der Gedanke dahinter: Die vierte industrielle Revolution in Afrika kann nicht auf Englisch stattfinden. Doch viele der digitalen Tools und Dienste, die weltweit boomen, sind derzeit hauptsächlich in Englisch oder anderen wichtigen westlichen Sprachen verfügbar. Auch wenn in Afrika Millionen von Menschen Englisch, Französisch und Portugiesisch sprechen, gibt es doch Tausende anderer Sprachen, die auf dem Kontinent gesprochen werden und von der digitalen Welt und den damit verbundenen Möglichkeiten und Informationen ausgeschlossen sind.

Salomon Kabongo, der sich 2019 als Vertreter der Tshiluba-Sprache (die in Zentralafrika und der Demokratischen Republik Kongo gesprochen wird) dem Masakhane-Projekt angeschlossen hat, weist zum Beispiel darauf hin, dass viele Kongolesen in seinem Land weder Französisch noch Englisch, sondern die kongolesischen Nationalsprachen Lingala, Tshiluba, Kikongo und Suaheli sprechen. Die Smartphones, die sie benutzen, verfügen zwar über fortschrittliche Technologie wie Siri, Google Talk und Alexa, doch die Spracherkennung ist nicht auf ihre Muttersprachen programmiert. Dasselbe gilt für die Informationen im Internet. Zwar rühmt sich die Wikipedia dafür, ein Depot für offene Informationen zu sein, doch bestimmte Sprachen sind dramatisch unterrepräsentiert. So sind mehr als drei Millionen Wikipedia-Artikel in Schwedisch geschrieben, obgleich es nur 9,6 Millionen Schwedisch sprechende Menschen weltweit gibt. Die Oromo-Sprache hingegen hat 34 Millionen Sprecher*innen in Äthiopien, die Wikipedia enthält aber lediglich 786 Artikel in dieser Sprache. Und Google Translate, das beliebteste maschinelle Übersetzungs-Tool, übersetzt derzeit 103 der 7.000 Sprachen der Welt – aber nur 13 davon sind afrikanische Sprachen. Salomon Kabongos Vision ist es, diese Technologien und digitalen Ressourcen auch in den kongolesischen Muttersprachen verfügbar zu machen und damit den Menschen, die von sprachlicher Ausgrenzung betroffen sind, eine Welt voller Möglichkeiten zu eröffnen. Und genau hier kommt Masakhane ins Spiel.

Sprachdaten für den afrikanischen Kontinent

Das Masakhane-Projekt zielt auf den Aufbau einer Gemeinschaft und die Stärkung der linguistischen Datenverarbeitung (LDV) in den afrikanischen Muttersprachen ab. LDV ist ein Bereich der Künstlichen Intelligenz, in dem Systeme und Computeralgorithmen aufgebaut werden, die die menschliche Sprache automatisch verstehen, analysieren, verarbeiten und auch erzeugen können. Die maschinelle Übersetzung (Machine Translation, MT) ist nur ein Beispiel für ein LDV-basiertes System, andere Anwendungen umfassen Spracherkennung, automatische Vorhersage, Korrektur und Stimmungsanalyse, um nur einige zu nennen.

Wie bei allen maschinellen Lernmodellen muss eine effektive maschinelle Übersetzung mit riesigen Mengen von „Trainingsdaten“ gefüttert werden, um adäquate Ergebnisse zu erzielen. Eine der größten Herausforderungen im Zusammenhang mit afrikanischen Sprachen besteht darin, dass sie „ressourcenschwach“ sind, dass also diese wichtigen Sprachdaten fehlen, verstreut oder nicht öffentlich zugänglich sind.

In der Welt der neuronalen maschinellen Übersetzung werden die Dokumente, die zur Erstellung der benötigten Datensätze dienen, als Korpora bezeichnet. Parallele Textkorpora – große Mengen von Texten, die Satz für Satz in mehreren Sprachen äquivalent sind – sind ein großer Vorteil, wenn es darum geht, maschinelle Übersetzungsmodelle zu trainieren. Parallelkorpora sind in den großen westlichen Sprachen kein Mangel, weil zum Beispiel die Politiken und Dokumente der Europäischen Union qualitativ hochwertige, von Menschen übersetzte Parallelkorpora in einer großen Vielfalt von EU-Sprachen bieten. Für  afrikanische Sprachen fehlen solche Parallelkorpora jedoch, was reale Auswirkungen auf die Verfügbarkeit von Informationen im Internet hat.

Um diese Probleme in Angriff zu nehmen, arbeiten die über 100 Mitglieder des Masakhane-Teams daran, ihre eigenen Korpora zusammenzustellen. Gemeinsam mit Gruppen wie „Translators Without Borders“ suchen sie so viele öffentlich zugängliche Datensätze – wie Regierungsdokumente, religiöse Texte, Literatur und Nachrichten – wie möglich zusammen. Diese Daten verwenden sie dann zur Entwicklung und maschinellen Übersetzung von Modellen aus dem Englischen in ihre afrikanischen Muttersprachen. Alle von ihnen erstellten Datensätze und Übersetzungsmodelle sind Open Source und jeder kann sie verwenden oder zum Projekt beitragen. „Diese Forschungsarbeit ermöglicht es jedem, vom kleinsten afrikanischen Startup über NGOs bis hin zu großen Unternehmen und Forschenden, innerhalb und außerhalb des Kontinents, von den erarbeiteten Datensätzen und dem aufgebauten Fachwissen zu profitieren“, so die Gründerin Jade Abbott.

Bislang wurden im Rahmen des Masakhane-Projekts Basismodelle von 16 afrikanischen Sprachen auf der Software-Entwicklungsplattform GitHub entwickelt. Geplant ist die Veröffentlichung von drei sich im Entstehungsprozess befindlichen Publikationen bei der achten ICLR in Addis Abeba, Äthiopien, im April 2020. Die ICLR (International Conference on Learning Representations) versammelt Fachleute, die im Bereich der Künstlichen Intelligenz, dem so genannten Representation Learning, einem Aspekt des maschinellen Lernens, arbeiten.

© Masakhane Das Masakhane-Projekt umfasst derzeit Teilnehmende aus sämtlichen gekennzeichneten Ländern des afrikanischen Kontinents.

Maschinelle Übersetzung als Hebel für mehr Integration

Übersetzungen in die afrikanische Sprache sind für die lokale Bevölkerung aus mehreren Gründen wichtig. Erstens: Wenn Krisen in Gebieten auftreten, in denen eine ressourcenarme Sprache gesprochen wird, stoßen die Hilfsdienste auf Sprachbarrieren. Maschinelle Übersetzungswerkzeuge könnten buchstäblich Leben retten. Zweitens wird gezeigt, dass Menschen effektiver lernen, wenn sie in ihrer Muttersprache ausgebildet werden. Und 63 Prozent der Afrikaner*innen südlich der Sahara haben aufgrund von Sprachbarrieren keinen Zugang zu globalen Märkten.

Die Möglichkeit, afrikanische Sprachen automatisch zu übersetzen und sie somit in mehr digitale Dienste und Tools einzubeziehen, wird auch neue Möglichkeiten für KI-Anwendungsfälle in Afrika eröffnen und den Menschen in afrikanischen Ländern die Möglichkeit geben, sich weiter in der digitalen Wirtschaft zu engagieren.

Gegenwärtig wird KI hauptsächlich außerhalb des afrikanischen Kontinents entwickelt und erforscht. Dadurch sind KI-Produkte und -Dienstleistungen nicht nur der Gefahr von Verzerrungen und Diskriminierung ausgesetzt, sondern auch der Umfang, in dem die KI für Verbesserungen innerhalb Afrikas eingesetzt werden kann, ist begrenzt. „Algorithmen definieren die Zukunft und die Menschen vergessen, dass Algorithmen nicht nur technisch, sondern auch politisch und kulturell sind“, erklärt Tom Ilube, Gründer der Afrikanischen Wissenschaftsakademie für Mädchen in Ghana. Die Veröffentlichungen durch das Masakhane-Projekt werden den Menschen in Afrika mehr Möglichkeiten für die Entwicklung von Technologie in ihrer eigenen Sprache eröffnen: afrikanische Lösungen für afrikanische Herausforderungen, statt Interventionen, die von außerhalb des lokalen Kontexts kommen.

Liegt die Zukunft der KI in Afrika?

Masakhane ist bei Weitem nicht das einzige Projekt, das an Übersetzungslösungen für afrikanische Sprachen arbeitet. 2019 haben Mozilla und die GIZ eine Zusammenarbeit mit afrikanischen Startups begonnen, um Mozillas Projekte „Common Voice“ und „Deep Speech“ zu entwickeln, die sprachunterstützte Produkte und Dienstleistungen in afrikanischen Sprachen anbieten sollen. Und im November 2019 startete das Programm „Artificial Intelligence for Development“ (AI4D) in Zusammenarbeit mit der datenwissenschaftlichen Website Zindi die African Language Dataset Challenge, ebenfalls mit dem Ziel, die Lücke zwischen Sprachen mit vielen und Sprachen ohne Daten im Internet zu schließen.

Und auch der weltgrößte Technologieriese hat in Afrika KI- und Machine Learning-Projekte gestartet: 2018 eröffnete Google ein KI-Forschungslabor in Accra, Ghana, und im vergangenen Jahr wählte Googles afrikanischer Launchpad Accelerator KI als Schwerpunkt für seine vierte Gruppe von Startups. Googles Open-Source-Plattform für maschinelles Lernen, TensorFlow, stellt Code zur Verfügung, der für eine Vielzahl von Zwecken eingesetzt werden kann und bereits von Afrikaner*innen zur Erstellung von Anwendungen und digitalen Diensten zur Lösung lokaler Probleme auf dem ganzen Kontinent verwendet wurde. Es wurde bereits in Anwendungen wie PlantVillage Nuru eingesetzt, die von afrikanischen Bauern zur Diagnose von Pflanzenkrankheiten und zur Verbesserung ihrer landwirtschaftlichen Erträge genutzt wird. Laut dem GitHub-Jahresbericht 2019 „Octoverse“ sind afrikanische Nationen bereits führend, wenn es um die wachsende Beteiligung an Open-Source-Projekten auf der ganzen Welt geht, wobei das Wachstum in Nigeria, Kenia, Tunesien und Marokko am höchsten ist. In ganz Afrika sind die Beteiligungen um 40 Prozent gestiegen, mehr als auf jedem anderen Kontinent.

Moustapha Cisse, der das KI-Forschungslabor von Google in Accra leitet, weist darauf hin, dass der afrikanische Kontinent aufgrund seiner enormen Humanressourcen einen großen Vorteil in Sachen KI hat: Er ist die Heimat der jüngsten und am schnellsten wachsenden Bevölkerung der Welt (das Durchschnittsalter in Afrika beträgt 19 Jahre, in Europa hingegen 43 Jahre). Cisse und weitere afrikanische Technologieführer sind sich jedoch einig, dass eine panafrikanische Strategie und finanzielle Investitionen ein notwendiger nächster Schritt sind.

Das Masakhane-Projekt steckt noch in den Kinderschuhen. Zwar gehören dem Team bereits Forschende auf dem ganzen Kontinent an, weitere Unterstützung wird aber nach wie vor gesucht. Hier erfährst du, wie du etwas zum Projekt beitragen kannst.

Dieser Artikel ist eine Übersetzung von Lydia Skrabania. Das Original erschien zuerst auf unserer englischen Webseite.

Wie kann KI im Umwelt- und Klimaschutz wirkungsvoll eingesetzt werden? Welche spannenden Projekte gibt es? Was sind die sozial-ökologischen Risiken der Technologie und wie sehen Löungen aus? Antworten und konkrete Handlungsempfehlungen geben wir in unserem Greenbook(1) „KI und Nachhaltigkeit – Können wir mit Rechenleistung den Planeten retten?“.

Dieser Artikel ist Teil des Dosssiers „Künstliche Intelligenz – Können wir mit Rechenleistung unseren Planeten retten?“. Alle Artikel des Dossiers findest du hier: Dossier KI

Das Dossier ist Teil der Projekt-Förderung der Deutschen Bundesstiftung Umwelt (DBU), in deren Rahmen wir vier Dossiers über zwei Jahre zum Thema „Chancen und Potenziale der Digitalisierung für eine nachhaltige Entwicklung“ erstellen.


Mehr Informationen hier.

 

Leanheat: Mit Machine Learning Heizkosten und Energie sparen

Die meisten Thermostate richten sich nur nach der Außentemperatur. Ein finnisches Unternehmen will das Heizen mithilfe von Künstlicher Intelligenz effizienter machen, indem es Daten wie den Strompreis und das Verhalten der Nutzenden einbezieht. Damit sollen Heizkosten, CO2 und sogar Reparaturen eingespart werden.

aproneX: KI-Algorithmen im Bienenstock

Sensoren, Geräuschanalyse, Deep Learning – die Digitalisierung kann helfen, viele Herausforderungen der modernen Imkerei zu bewältigen. Darüber haben wir mit aproneX-Gründer Daniel Kremerov gesprochen.

Digitale KI-Beratung: Plantix hilft Landwirten bei Krankheits- und Schädlingsbefall ihrer Pflanzen

Die App Plantix nutzt maschinelles Lernen, um Krankheiten und Schädlinge an Nutzpflanzen zu erkennen und gibt Tipps zur Behandlung. Das kann zu höherer Nahrungsmittelsicherheit beitragen und Existenzen von Kleinbauern und -bäuerinnen sichern. 

Künstliche Intelligenz – Können wir mit Rechenleistung unseren Planeten retten?

Längst löst Künstliche Intelligenz komplexe Aufgaben und erleichtert unseren Alltag. Doch liefern die intelligenten Computerprogramme auch neue Lösungen für den Umwelt- und Klimaschutz?

Mit Künstlicher Intelligenz gegen Food Waste

Lebensmittelverschwendung ist ein riesiges Problem, auch in der Gastronomie. Das Londoner Unternehmen Winnow hilft Restaurants, Food Waste mit einem smarten Müllsystem zu reduzieren.

logo_dbu
© DBU
Nachhaltigkeit und Digitalisierung im Fokus: RESET.org erhält eine Projekt-Förderung der DBU

Vor wenigen Wochen ist die finale Bestätigung bei uns eingegangen: Die Deutsche Bundesstiftung Umwelt (DBU) fördert in den nächsten zwei Jahren unsere Themen-Dossiers fachlich und finanziell. Schon nächste Woche geht's los!

EU-Nachhaltigkeitspolitik: Wie weit sind wir heute?

Saubere Energie, emissionsarme Mobilität, nachhaltige Produktion: Die EU gilt in puncto Nachhaltigkeit als Vorbild. Entspricht dieses Image der Realität? RESET wirft einen Blick auf den Status quo einiger der wichtigsten Zielsetzungen.

Farmerline: Wie Bauern in Ghana mit SMS und Sprachnachrichten bessere Erträge erzielen

Das Handy als Hilfsmittel für die Landwirtschaft? Na klar! Farmerline gibt Bauern Tipps und Tricks für ihre angebauten Produkte per SMS oder Sprachnachricht. Dadurch können die Landwirte höhere Erträge erzielen.