Microsoft geht wieder in die Initiative um ihre KI Angebote in Europa anzukurbeln und eigene KI Modelle in Europa zu erstellen und zu bereiten,
Zusammenfassung mit Copilot
Microsofts neue Initiativen (Juli 2025)
1. Förderung mehrsprachiger KI-Modelle
- Ziel: Entwicklung von KI-Systemen, die europäische Sprachen besser verstehen.
- Maßnahmen:
- Neue Teams in Microsoft-Innovationszentren in Straßburg.
- Zusammenarbeit mit der Universität Straßburg und Hugging Face.
- Bereitstellung von Azure-Guthaben und technischer Unterstützung.
- Aufruf zur Einreichung von Projekten zur Digitalisierung von Inhalten in 10 europäischen Sprachen (z. B. Estnisch, Maltesisch, Griechisch).
2. Schutz des kulturellen Erbes
- Culture AI-Initiative wird ausgebaut:
- Digitalisierung von Notre-Dame in Paris in Zusammenarbeit mit dem französischen Kulturministerium.
- Digitalisierung von Bühnenbildmodellen der Pariser Oper (1800–1914).
- Erfassung von 1,5 Millionen Artefakten des Musée des Arts Décoratifs.
Warum das wichtig ist
- Viele europäische Sprachen sind online unterrepräsentiert.
- KI-Modelle, die auf englischen Daten trainiert sind, liefern schlechtere Ergebnisse in anderen Sprachen.
- Sprachliche Ungleichheit kann wirtschaftliche Chancen einschränken.
- Die EU schätzt, dass der Abbau von Sprachbarrieren den Binnenhandel um bis zu 360 Mrd. € steigern könnte.
Zukunftsausblick
Microsoft betont, dass diese Initiativen offen, transparent und nicht-proprietär sind. Ziel ist es, europäische Entwickler, Forscher und Institutionen zu befähigen, ihre eigene digitale Zukunft mitzugestalten.
Übersetzung
https://blogs.microsoft.com/on-the-issues/2025/07/20/eudigitalunlock/
„Europa ist die Heimat von mehr als 200 Sprachen und einem reichen kulturellen Erbe, das sich über Jahrtausende erstreckt und in Millionen von Kulturgütern bewahrt wird, die die Geschichte seiner Menschen erzählen. Diese Sprachen sind jedoch mehr als nur Träger von Tradition und Geschichte – sie unterstützen sowohl die Kultur als auch den Handel, indem sie Menschen miteinander verbinden, ihnen kreatives Schaffen ermöglichen und ihnen Geschäfte erleichtern.
Doch mit der zunehmenden Digitalisierung der Welt droht ein Großteil der sprachlichen und kulturellen Vielfalt Europas verloren zu gehen. Der Großteil der Online-Inhalte – die wichtigste Quelle für Trainingsdaten für die heutigen Large Language Models (LLMs) – ist in englischer Sprache verfasst. Ein Großteil davon spiegelt eine amerikanische Perspektive wider. Die Europäische Kommission hat gewarnt, dass das Ziel des Kontinents, sein umfangreiches kulturelles Erbe zu digitalisieren, „noch in weiter Ferne“ liege. Wie die europäischen Staats- und Regierungschefs erkannt haben, ist dieses Ungleichgewicht ohne dringende Maßnahmen nicht nur ein kulturelles, sondern auch ein wirtschaftliches Problem. Eine KI, die die Sprachen, die Geschichte und die Werte Europas nicht versteht, kann den Menschen, den Unternehmen und der Zukunft Europas nicht gerecht werden.
Deshalb bekräftigen wir heute in Paris unser Engagement für die digitale Zukunft Europas mit zwei neuen Initiativen, die darauf abzielen, das einzig Europäische – seine Sprachen und Kultur – offener und zugänglicher zu machen. Dies baut auf unseren Anfang des Jahres angekündigten europäischen Digitalverpflichtungen auf, die darauf abzielen, die KI- und Cloud-Infrastruktur auszubauen, die digitale Widerstandsfähigkeit und den Datenschutz zu stärken, die Cybersicherheit zu verbessern und die digitale Souveränität und die Wirtschaft Europas insgesamt zu unterstützen.
Erstens werden wir zur Förderung der Entwicklung mehrsprachiger LLMs in Europa und für Europa Mitarbeiter aus zwei unserer Innovationszentren in Straßburg, Frankreich, entsenden – einer Stadt, die seit langem ein Schmelztiegel der Kulturen ist und heute Sitz wichtiger europäischer Institutionen ist. Diese Zentren werden dazu beitragen, die Verfügbarkeit mehrsprachiger Daten für die KI-Entwicklung zu verbessern. Dabei werden wir Microsoft Azure, unser technisches Know-how und unsere Partnerschaften in ganz Europa nutzen, um eine inklusivere Sprachdarstellung in KI-Modellen zu fördern. Im Rahmen dieser Bemühungen veröffentlichen wir außerdem eine Ausschreibung, um das Angebot an digitalen Inhalten für zehn europäische Sprachen zu erweitern.
Zweitens erweitern wir die Culture AI-Initiative von Microsoft, die durch digitale Nachbildungen und Datenkooperationen zum Erhalt von Sprachen, Sehenswürdigkeiten und Artefakten beiträgt, um sicherzustellen, dass der kulturelle Reichtum Europas in der digitalen Welt repräsentiert und zugänglich ist. Seit 2019 hat Microsoft unter anderem das antike Olympia in Griechenland, den Mont Saint-Michel in Frankreich, den Petersdom in Rom und den 80. Jahrestag der Landung der Alliierten in der Normandie digital erhalten. Heute geben wir bekannt, dass Microsoft im Herbst dieses Jahres gemeinsam mit dem französischen Kulturministerium und dem französischen Unternehmen Iconem mit der Arbeit an einer digitalen Nachbildung der Notre Dame beginnen wird – dem neu restaurierten, 862 Jahre alten gotischen Meisterwerk in Paris.
Diese Art der Unterstützung für Europa und seine Vielfalt ist für Microsoft nichts Neues. Diese jüngsten Schritte zur Förderung von Sprachen und Kulturen basieren auf unserer mehr als 40-jährigen Erfahrung in der Zusammenarbeit mit Ländern und Kulturen in ganz Europa und weltweit. Wir haben früh erkannt, dass wir, um jeden Menschen auf der Welt zu stärken, unsere Technologien in den Sprachen anbieten müssen, die weltweit gesprochen werden. Aus diesem Grund unterstützt Windows heute über 90 Sprachen, darunter alle Amtssprachen der Europäischen Union sowie weitere Sprachen wie Baskisch, Katalanisch, Galicisch, Luxemburgisch, Valencianisch und viele mehr. Microsoft 365 hat ebenfalls eine große Reichweite und bietet Unterstützung durch Office-Anwendungen in mehr als 30 europäischen Sprachen, darunter alle Amtssprachen der Europäischen Union.
Die Dringlichkeit, die Sprachbarrieren zu überwinden
Die Europäische Union hat 24 Amtssprachen, Dutzende weitere sind auf nationaler oder regionaler Ebene anerkannt. Viele dieser Sprachen – selbst diejenigen, die zu den 24 Amtssprachen gehören, wie Dänisch, Finnisch, Schwedisch und Griechisch – machen jedoch weniger als 0,6 % der Webinhalte aus. Andere Sprachen wie Maltesisch, Irisch, Estnisch, Lettisch und Slowenisch sind online kaum vertreten. Obwohl nur 5 % der Weltbevölkerung Englisch als Muttersprache sprechen, machen englische Texte die Hälfte der Webinhalte aus und dominieren die Daten, die zum Trainieren von KI-Modellen verwendet werden.
Diese digitale Unterrepräsentation hat reale Konsequenzen, da LLMs für ihr Training stark auf Webinhalte angewiesen sind. Wenn eine Sprache online nicht ausreichend vertreten ist, läuft sie Gefahr, von zukünftigen KI-Diensten ausgeschlossen zu werden. Größere Allzweckmodelle können zwar mehrere Sprachen verarbeiten, aber dennoch sprachliche Nuancen, kulturelle Kontexte und regionale Besonderheiten übersehen, die für wirklich inklusive Anwendungen erforderlich sind. LLMs, die mit begrenzten Daten trainiert wurden, sind weniger genau, weisen mehr Halluzinationen und Fehler auf, haben Schwierigkeiten mit dem Wortschatz und spiegeln mehr Vorurteile wider.[1]
Ein Beispiel dafür ist Llama 3.1, ein beliebtes Open-Source-Modell, das eine Leistungsdifferenz von mehr als 15 Prozentpunkten zwischen Antworten auf Englisch und Griechisch und eine Differenz von mehr als 25 Punkten zwischen Englisch und Lettisch aufweist. Das bedeutet, dass dieses Modell als Schülerin in Englisch Klassenbeste wäre, in Griechisch jedoch nur im Mittelfeld und in Lettisch sogar auf den hinteren Plätzen. Diese Diskrepanz zwischen den Sprachen zeigt sich in allen wichtigen LLM-Leistungstests.[2]
In vielen Fällen werden Sprachen mit einem tiefen kulturellen Erbe, wie Bretonisch, Okzitanisch und Rätoromanisch, die von der UNESCO als gefährdet eingestuft werden, in den heutigen gängigen KI-Systemen weitgehend nicht unterstützt.
Die wirtschaftliche Macht der Sprache
Diese einseitige Entwicklung von Sprachmodellen hat reale wirtschaftliche Folgen. Wenn KI-Systeme die Sprache einer Region nicht verstehen oder darauf reagieren können, schränken sie den Zugang zu Dienstleistungen und Möglichkeiten ein und untergraben damit sowohl lokale Unternehmen als auch das allgemeine Wirtschaftswachstum.
Die breite Verbreitung von KI – also die Einführung und Nutzung in verschiedenen Wirtschaftsbereichen – wird in den nächsten zehn Jahren einer der wichtigsten Treiber für Innovation und Produktivitätswachstum sein. Wie Elektrizität und andere allgemeine Technologien in der Vergangenheit stellt KI die nächste Stufe der Industrialisierung dar.
Für Gemeinschaften, deren Sprachen online unterrepräsentiert sind, besteht die Gefahr, dass die Vorteile der KI unerreichbar bleiben. Stellen Sie sich einen Kleinunternehmer in Malta vor, der nur Maltesisch spricht. Derzeit funktionieren die fortschrittlichen KI-Tools für Aufgaben wie Marktanalyse oder Inhaltserstellung wahrscheinlich nicht auf Maltesisch, was die Möglichkeiten dieses Unternehmers, KI zu nutzen, einschränkt. Oder denken Sie an einen polnischsprachigen Studenten in einer Stadt außerhalb Warschaus, der keine KI-Bildungsressourcen in seiner Sprache finden kann, was sich möglicherweise auf seine Lernmöglichkeiten auswirkt. Und selbst wenn eine KI-Plattform eine Sprache nominell unterstützt, kann die Erfahrung unterdurchschnittlich sein.
Die europäischen Regierungen und Institutionen haben erkannt, wie wichtig es ist, diese Situation anzugehen. Um die wirtschaftliche Wettbewerbsfähigkeit im KI-Zeitalter zu fördern, muss Europa die Sprachbarrieren überwinden und die Verbreitung von KI auf dem gesamten Kontinent vorantreiben. Nach Angaben der Europäischen Kommission nutzen nur 13,5 % der EU-Unternehmen KI. Der EU-Aktionsplan für KI auf dem Kontinent stellt fest, dass der Abbau von Sprachbarrieren im Binnenmarkt den Handel innerhalb der EU um bis zu 360 Milliarden Euro ankurbeln könnte.
Neue Schritte zur Überwindung von Sprachbarrieren
Um diese Sprachbarriere zu überwinden, wird Microsoft mit europäischen Partnern zusammenarbeiten, um die Verfügbarkeit mehrsprachiger Daten zu verbessern. In Zusammenarbeit mit dem ICube-Labor der Universität Straßburg, einer Einrichtung für Ingenieurwesen, Informatik und Bildgebung, werden wir KI-Schulungsmaßnahmen unterstützen, indem wir Mitarbeiter aus dem Microsoft Open Innovation Center (MOIC) und unserem AI for Good Lab in Straßburg, Frankreich, zur Verfügung stellen. Dieses Team wird von einem globalen internen Netzwerk aus mehr als 70 Microsoft-Ingenieuren, Datenwissenschaftlern und Politikern unterstützt. Diese Zusammenarbeit zwischen dem MOIC, Microsoft AI for Good Lab und der Universität Straßburg wird auch zwei Postdoktoranden finanzieren und Azure-Gutschriften in Höhe von bis zu 1 Million US-Dollar bereitstellen.
Dieses Team wird zunächst auf die eigenen mehrsprachigen Datenbestände von Microsoft zurückgreifen und diese für die europäische Öffentlichkeit, einschließlich Open-Source-Entwicklern, zugänglich und transparent machen. Dazu gehören beispielsweise mehrsprachige Textdaten aus GitHub und Sprachdatensätze. MOIC und GitHub werden mit Hugging Face, einer beliebten Plattform für die Zusammenarbeit bei der Entwicklung von KI-Modellen, zusammenarbeiten, um die Daten zu hosten und allgemein zugänglich zu machen. Dies baut auf unserer bestehenden Beziehung zu Hugging Face auf, um eine breite Palette offener Modelle aus der Hugging Face-Modellsammlung für die Bereitstellung mit einem Klick im Azure-Modellkatalog verfügbar zu machen. Dazu gehört auch die Veröffentlichung der neuesten Beiträge zur mehrsprachigen KI in der vergangenen Woche – das SmoILM3-Modell, ein hocheffizientes 3B-Modell mit mehreren Parametern, das sechs Sprachen unterstützt: Englisch, Französisch, Spanisch, Deutsch, Italienisch und Portugiesisch.
MOIC wird auch mit Common Crawl zusammenarbeiten, einem der größten kostenlosen und offenen Repositorien für Web-Crawling-Daten. MOIC wird die Arbeit bei Common Crawl finanzieren und dabei Muttersprachler einsetzen, um europäische Sprachdaten im öffentlich zugänglichen Common Crawl-Datensatz zu annotieren und zu speichern.
Darüber hinaus werden MOIC und das AI for Good Lab einen Aufruf zur Einreichung von Vorschlägen veröffentlichen, um das Angebot an digitalen Inhalten für 10 europäische Sprachen zu erweitern, indem ihre Textsammlungen auf verantwortungsvolle und ethische Weise zu ihren eigenen Bedingungen für die Entwicklung und Nutzung mehrsprachiger KI zur Verfügung gestellt werden. Bewerbungen für Fördermittel können ab dem 1. September 2025 auf der Website des AI for Good Lab eingereicht werden. Bei der Auswahl der Empfänger werden das MOIC und das AI for Good Lab den Schwerpunkt auf Möglichkeiten zur Erschließung von Daten in Sprachen legen, die in Online-Inhalten relativ wenig vertreten sind, wie Estnisch, Elsässisch, Slowakisch, Griechisch und Maltesisch. Die Fördermittel werden den Empfängern in Form von Azure-Gutschriften sowie technischer und ingenieurtechnischer Unterstützung zur Verfügung gestellt.
Mehr mehrsprachige Daten sind zwar unerlässlich, aber auch bessere technologische Tools und Know-how können helfen. Beispielsweise verwenden viele Sprachen Schriften (Schriftsysteme), die derzeit eine Herausforderung für Modelle darstellen, die ursprünglich für das lateinische Alphabet entwickelt wurden. Kyrillische Zeichen, das griechische Alphabet und die arabische Kursivschrift haben jeweils unterschiedliche Eigenschaften. Standard-„Tokenizer” zerlegen diese Schriften oft auf suboptimale Weise. Dies kann die Fähigkeit eines Modells beeinträchtigen, den langfristigen Kontext oder die korrekte Schreibweise in diesen Sprachen zu lernen. Neue Fortschritte bei Techniken, die es einem Modell ermöglichen, jede Schrift einheitlich zu verarbeiten, können hier Abhilfe schaffen. Bessere Mechanismen zur Erstellung synthetischer Daten und zur besseren Verarbeitung und Kuratierung dieser Daten können ebenfalls hilfreich sein, insbesondere wenn sie Datenschutz- und sensible Datenbelange effektiv berücksichtigen.
Das MOIC und das AI for Good Lab werden daran arbeiten, die Entwicklung und den Austausch von Wissen, Tools und Fähigkeiten zu fördern, um diese Probleme anzugehen und europäische Entwickler zu unterstützen. Das AI for Good Lab wird einen Leitfaden veröffentlichen, in dem detailliert beschrieben wird, wie hochwertige Sprachdatensätze erstellt und lokale LLMs trainiert werden können, um mehr aus den vorhandenen Daten herauszuholen. Diese beiden Gruppen werden auch relevante Forschungsarbeiten unterstützen, Treffen organisieren, gemeinsam in Daten-Commons-Projekte investieren und sicherstellen, dass Wissen, Tools und Fähigkeiten dort verfügbar sind, wo sie am dringendsten benötigt werden. Diese Teams werden auch weiterhin Initiativen wie die des Barcelona Supercomputing Center, des Basque Center for Language Technology und der Universität Santiago de Compostela unterstützen, um auf Azure AI Foundry KI-Modelle zu veröffentlichen, die in Spanisch, Katalanisch, Baskisch und Galicisch trainiert wurden. Diese Initiative ermöglicht es Entwicklern, KI-Systeme zu entwickeln, die in den Amtssprachen Spaniens funktionieren, und fördert so Innovation und Inklusion.
Um die verantwortungsvolle KI-Forschung voranzutreiben und die Sprachbarrieren zu überwinden, startet Microsoft zwei neue akademische Kooperationen in Europa an der Universität Straßburg und der IE University School of Science & Technology in Spanien. Das AI for Good Lab von Microsoft und MOIC werden mit der Universität Straßburg zusammenarbeiten, um Azure-Zuschüsse zur Unterstützung gemeinsamer KI-Forschung bereitzustellen. An der IE University School of Science & Technology wird das Microsoft AI for Good Lab Azure-Zuschüsse zur Unterstützung gemeinsamer Forschungsprojekte für Sprachen mit geringen Ressourcen bereitstellen, einschließlich der Unterstützung für damit verbundene Abschlussprojekte, um neue Lösungen mit Schwerpunkt auf Sprache und KI zu beschleunigen.
Neue Schritte zum digitalen Schutz des kulturellen Erbes Europas
Seit 2019 konzentriert sich die Culture AI-Initiative von Microsoft darauf, künstliche Intelligenz weltweit einzusetzen, um Sprachen, Orte, Geschichten und Artefakte zu bewahren, die die Geschichte der Menschheit prägen. Unterstützt durch das AI for Good Lab und durch Partnerschaften mit gemeinnützigen Organisationen, Universitäten, Regierungen und Kulturinstitutionen fördert die Initiative Projekte zur Digitalisierung und zum Schutz des kulturellen Erbes – von bedrohten Sprachen bis hin zu berühmten Sehenswürdigkeiten, unter anderem in Frankreich, Rom und Griechenland. Ob es darum geht, digitale Nachbildungen historischer Stätten zu erstellen oder Museumssammlungen zugänglicher zu machen, das Ziel ist es, sicherzustellen, dass kulturelle Identität und Vielfalt nicht nur bewahrt werden, sondern im digitalen Zeitalter auch inklusiver und leichter zugänglich sind.
Heute geben wir unser nächstes Projekt bekannt: den Bau einer digitalen Nachbildung in Zusammenarbeit mit dem französischen Kulturministerium und dem französischen Unternehmen Iconem. Das Projekt wird einen digitalen Zwilling der Pariser Notre-Dame schaffen, einem architektonischen und kulturellen Wahrzeichen, das über Jahrhunderte hinweg entstanden ist. Der Bau der Notre-Dame begann 1163 und dauerte fast 200 Jahre. Das Ergebnis ist ein 128 Meter langes Meisterwerk der Gotik mit zwei Türmen, die 69 Meter über die Seine ragen. Nach einem verheerenden Brand im Jahr 2019 wurde Notre-Dame Ende 2024 wieder für die Öffentlichkeit zugänglich gemacht. Das Projekt wird die Technologie und Methoden nutzen, die wir gemeinsam mit Iconem im vergangenen Jahr für die Erstellung eines digitalen Zwillings der Petersbasilika entwickelt haben. Diese basierte auf mehr als 400.000 Fotos und fortschrittlichen KI-Algorithmen und wurde in Zusammenarbeit mit dem Vatikan realisiert.
So wie das letztjährige Projekt für den Vatikan jedes Detail des Petersdoms dokumentierte, wird dieses neue Projekt eine digitale Replik erstellen, die jedes Detail von Notre-Dame dauerhaft in digitaler Form bewahrt und so sicherstellt, dass ihre Struktur, Geschichte und Symbolik für kommende Generationen geschützt und zugänglich bleiben. Durch die Kombination von fortschrittlicher Bildgebung und KI werden wir einen digitalen Zwilling erstellen und dem französischen Staat schenken, der von Denkmalschützern genutzt und im zukünftigen Musée Notre Dame de Paris ausgestellt werden kann.
Zusätzlich zum Projekt für Notre-Dame geben wir heute eine Partnerschaft mit der Bibliothèque Nationale de France bekannt, in deren Rahmen in Zusammenarbeit mit Iconem fast 1.500 filmische Modellkulissen aus Aufführungen der Opéra National de Paris zwischen 1800 und 1914 digitalisiert werden sollen. Die digitalisierten Modellkulissen werden im Rahmen interaktiver, pädagogischer Erlebnisse und Ausstellungen sowie als Datensatz auf der Plattform Gallica der Bibliothèque Nationale de France für kulturelle KI- und Forschungsprojekte zur Verfügung gestellt.
Schließlich beginnen wir eine neue Zusammenarbeit mit dem Musée des Arts Décoratifs, um detaillierte digitale Beschreibungen von rund 1,5 Millionen Artefakten vom Mittelalter bis zur Gegenwart öffentlich zugänglich zu machen. Dieser Schritt ermöglicht es Forschern aus den Bereichen Geschichte, Kunstgeschichte und Konservierung, auf diese neuen Informationen zuzugreifen, um sie für ihre eigenen KI-gestützten Forschungsarbeiten zu nutzen.
Ausblick: Ein prinzipieller Ansatz
Wir gehen diese neuen Schritte heute mit Demut und Respekt, in der Erkenntnis, dass die Erhaltung der sprachlichen und kulturellen Vielfalt Europas eine Aufgabe ist, die von Europäern geleitet werden muss. Die Europäische Union hat bereits eine länderübergreifende Initiative gestartet, um EU-Sprachdaten zu bündeln und alle Arten von kulturellem Erbe zu digitalisieren. Unsere Aufgabe ist es, diese und ähnliche Bemühungen zu unterstützen und einen Beitrag dazu zu leisten. Nichts von dem, was wir heute ankündigen, wird zu proprietären Daten oder Technologien für Microsoft selbst führen.
Letztendlich ist der beste Weg, mehr Menschen in ganz Europa in die Lage zu versetzen, diese Anforderungen zu erfüllen, ihnen die KI-Kenntnisse zu vermitteln, die sie für den Erfolg in diesen Bereichen benötigen. Wie die Europäische Kommission kürzlich festgestellt hat, behindert ein Mangel an digitalen Kompetenzen im Kultursektor die Bemühungen zur Digitalisierung des kulturellen Erbes in ganz Europa. Um diese Qualifikationslücke zu schließen, werden das MOIC und das AI for Good Lab ihr Wissen und ihre Erfahrungen bei dieser wichtigen Arbeit austauschen.
Technologie sollte den Reichtum der Menschheit widerspiegeln – und ihn nicht zerstören. Wenn wir jetzt gezielte Maßnahmen ergreifen, können wir dazu beitragen, dass KI die sprachliche und kulturelle Vielfalt nicht auslöscht, sondern stärkt.
Dies ist eine der entscheidenden Herausforderungen der KI-Ära im Hinblick auf Gerechtigkeit. Wenn wir gemeinsam mit Entschlossenheit und Dringlichkeit daran arbeiten, können wir diese Lücke schließen und eine digitale Zukunft gestalten, die jede Sprache, jede Kultur und jede Gemeinschaft in ganz Europa wertschätzt.
[1] P. Rohera, C. Ginimav, G. Sawant und R. Joshi, „Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages”, 28. April 2025, arXiv: arXiv:2504.20022. doi: 10.48550/arXiv.2504.20022.
[2] K. Thellmann et al., „Towards Multilingual LLM Evaluation for European Languages” (Auf dem Weg zu einer Bewertung mehrsprachiger LLM für europäische Sprachen), 17. Oktober 2024, arXiv: arXiv:2410.08928. doi: 10.48550/arXiv.2410.08928.“
One comment
Comments are closed.