Digitale Sprachbarrieren abbauen: Simba will das Internet für alle verständlicher machen

Symbolbild für KI-Sprachmodell Simba.
© HIIG

Forschende des HIIG haben eine frei verfügbare KI-Anwendung entwickelt, die Sprachbarrieren reduziert, indem sie Online-Texte vereinfacht.

Autor*in Sarah-Indra Jungblut, 11.09.24

Übersetzung Lana O'Sullivan:

Sie heißt Simba und hat eine klare Mission: Das Internet für alle verständlicher machen. Die Webanwendung, die deutschsprachige Texte vereinfacht, bietet zwei KI-gestützte Lösungen: eine Internet-App zur Vereinfachung eigener Texte und eine Browser-Erweiterung, die automatisch Texte auf Webseiten zusammenfasst. Damit sollen digitale Sprachbarrieren abgebaut werden.

Teilhabe statt digitale Sprachbarriere

Texte auf Webseiten und in Online-Artikeln stellen nicht nur für Personen mit Lernschwierigkeiten oder Deutschlernende eine Hürde dar. „Unsere Recherchen zeigen, dass besonders Webseiten öffentlicher Verwaltungen sowie im Bildungs- und Wissenschaftssektor durch ihre komplizierte Sprache einen wesentlichen Teil der Bevölkerung von wichtigen Informationen ausschließen“, erklärt Freya Hewett, Forscherin am Alexander von Humboldt Institut für Internet und Gesellschaft (HIIG). Die Computerlinguistin hat Simba entwickelt. Auch geübten Muttersprachler:innen kann es also schwerfallen, die Inhalte hinter komplexen Sätzen und Fachbegriffen zu erschließen. Doch die Teilhabe an der Gesellschaft hängt davon ab, Informationen und Dienste im Internet nutzen zu können. „Vereinfachte Sprache kann dazu beitragen, diese Lücken zu schließen“, so Hewett.

Die kostenlose Lösung Simba spricht gezielt Endnutzer:innen an, damit diese selbst Texte im Alltag vereinfachen können. Die KI-gestützten Anwendungen ersetzen lange Wörter durch kürzere Begriffe, die eine ähnliche oder gleiche Bedeutung haben. Sie verkürzen Sätze und fügen zusätzliche Informationen hinzu, um Zusammenhänge klarer zu machen. Mit diesem Prinzip hilft die Anwendung natürlich nicht nur dabei, Texte besser zu verstehen. Gleichzeitig kann sie auch Medienschaffende dabei unterstützen, leichter verständliche Texte zu formulieren.

Die Eingabemaske des KI-Sprachmodells Simba.
© HIIG
Die Eingabemaske des KI-Sprachmodells Simba.

Es gibt bereits vergleichbare Lösungen in Deutschland, die Sprache automatisiert vereinfachen. Allerdings sind die meisten von ihnen kostenpflichtig und werden vorwiegend von Institutionen und Unternehmen genutzt. Simba dagegen will das Angebot für möglichst viele Menschen ohne Bezahlschranke zugänglich machen. „Unser Ziel ist es, dass Simba ein alltägliches Werkzeug wird, das allen Menschen hilft, die Textvereinfachung in ihrem Alltag nutzen möchten“, sagt daher Dr. Theresa Züger, Leiterin der Forschungsgruppe „Public Interest AI“, in der die KI-Anwendung entstanden ist.

Die Technologie hinter Simba

Die beiden Anwendungen von Simba basieren auf einem sogenannten „Textgenerierungsmodell“, auch bekannt als Large Language Models oder Foundation Models. Prominente Vertreter dieser Anwendungen sind GPT-4, Mistral 7B oder Llama.

Nachdem sie mit großen Mengen an Textdaten trainiert wurden, berechnen die Modelle, welches Wort in einer Sequenz am wahrscheinlichsten als nächstes kommt. Simba beruht auf dem Foundation-Modell Llama-3-8B-Instruct, das durch deutschsprachige Zeitungsartikel verfeinert wurde.

KI-Anwendung für das Gemeinwohl

Der Schwerpunkt der Forschungsgruppe „Public Interest AI“ ist Antworten auf die Frage zu suchen, welche Prinzipien Künstliche Intelligenz erfüllen muss, um der gesamten Gesellschaft zu nutzen. In diesem Rahmen entwickelt das Team auch eigene KI-Prototypen, mit denen sie diese Prinzipien in der Praxis testen – wie eben auch Simba.

Eines der Prinzipien ist, dass die KI-Anwendung ohne kommerzielle Interessen betrieben wird. Außerdem sind der Quellcode und die zugrunde liegenden Modelle frei zugänglich. Das ermöglicht eine transparente Zusammenarbeit, bei der eine Community aus Forscher:innen, Inklusionsfachleuten und Nutzer:innen Simba kontinuierlich weiterentwickeln und verbessern kann. „Die Zielgruppen, die wir ansprechen – wie etwa Menschen mit Lernschwierigkeiten oder Personen, die Deutsch nicht als Muttersprache sprechen – sind sehr heterogen. Unser Ziel ist es, das Sprachmodell durch kontinuierliches Feedback zu verbessern und so Vereinfachungen zu schaffen, die wirklich vielen Menschen nützen“, betont Freya Hewett.

Simba sucht Partner

Freya Hewett weist darauf hin, dass natürlich auch bei Simba – wie bei allen Textgenerierungsmodellen – die Möglichkeit besteht, dass automatisch generierte Zusammenfassungen fehlerhafte Informationen enthalten. „Dennoch sind wir überzeugt, dass Simba eine wertvolle Unterstützung bietet.“ Um sicherzustellen, dass die Fakten korrekt sind, empfiehlt Hewett, den Eingabe- und Ausgabetext der KI-Anwendung sorgfältig zu vergleichen.

Die Beta-Version von Simba wurde vom Bundesministerium für Bildung und Forschung (BMBF) gefördert und steht bis auf Weiteres kostenlos zur Verfügung. Doch die laufenden Kosten für den Betrieb einer solchen KI-Anwendung sind erheblich. Um die kontinuierliche Verfügbarkeit und Weiterentwicklung von Simba sicherzustellen, sucht das HIIG nach weiteren Kooperationspartnern. Denn Simba soll frei verfügbar bleiben, um eine inklusivere und gerechtere digitale Zukunft durch die Überwindung digitaler Sprachbarrieren zu fördern.

Symbolbild nachhaltige Digitalisierung.
Torge Peters
Neues RESET-Projekt: Von nachhaltigen Smartphones bis zu grünen Rechenzentren – Lösungen für eine nachhaltige Digitalisierung

Die digitale Welt wird zu einem immer größeren Problem für Umwelt und Klima. Doch es gibt viele Lösungen für eine ökologische und faire Digitalisierung! Um diese geht es in unserem neuen Projekt – gefördert von der Deutschen Bundestiftung Umwelt (DBU).

Hera Digital Health
© Hera Digital Health
Gesundheitsversorgung per App: Wie „Hera“ Geflüchteten hilft und dabei mitreisen kann

Die Hera-App hilft Geflüchteten bei der Gesundheitsversorgung. Der Vorteil: Anders als analoge Lösungen kann die App mitreisen.

Datenspenden: Wie unsere digitalen Spuren der Gesellschaft zu Gute kommen

Warum müssen es nur Tech-Oligarchen sein, die von Nutzerdaten profitieren? Datenspenden könnten die Macht in die Hände derer legen, die sich für das Gemeinwohl einsetzen. Das Data Donation Lab hat dazu eine Open-Source-Anwendung entwickelt.

© Fraunhofer IML
ForestGuard: Mit einer Open-Source-Blockchain zu entwaldungsfreien Kaffee-Lieferketten

Wie kann einfach und unkompliziert nachgewiesen werden, dass Produkte wie Getreide, Kaffee oder Kakao aus entwaldungsfreien Lieferketten stammen? Das Team des Fraunhofer IML hat eine Lösung entwickelt.

© Screenshot umwelt.info
umwelt.info bündelt frei verfügbare Umweltdaten an einem Ort

Was für Daten stehen zur Luftqualität in deutschen Städten zur Verfügung? Welche Studien gibt es zu Kunststoffen und deren Recycling? Das Portal umwelt.info will sämtliche offenen Daten und Informationen zu Umwelt- und Naturschutzthemen leicht zugänglich machen.

© Recycle Your Electricals
Müllproblem Einweg-Vapes: So will „Material Focus“ in Großbritannien dagegen vorgehen

Die Beliebtheit von Einmal-Vapes führt zu Unmengen an Elektroschrott. RESET hat mit "Material Focus" darüber gesprochen, wie man das Müllproblem in Großbritannien lösen möchte.

Fluchtorte als Stolperstein oder Sprungbrett: KI-Modell GeoMatch soll Geflüchtete besser zuordnen

Geflüchtete stehen in europäischen Ländern vor zu vielen Herausforderungen. Kann das neue KI-Modell "GeoMatch" dieses Problem lösen?

38C3 - Blick auf das CCC-Gebäude in Hamburg.
© Thomas Fricke
Hackerkongress 38C3: Wie steht es um Nachhaltigkeit in der digitalen Welt?

Zum Jahresende fand der alljährliche Kongress des Chaos Computer Clubs statt. Wie war der Status quo von Nachhaltigkeit in der IT auf dem 38C3? Diese spannenden Vorträge zum Nachschauen geben einen Überblick.