Transkription und natürliche Sprache werden immer wichtiger, dieser Trend hält seit KI im Trend ist an. Es werden immer mehr Nutzungsszenarien mit Speech Services und insbesondere den Microsoft Speech Services. Nur was sind diese und was wissen wir darüber?
Microsoft Speech Services
Die Microsoft Speech Services sind Teil der Azure AI Services und bieten eine umfassende Plattform zur Integration von Sprachfunktionen in Anwendungen, Geräte und Dienste. Die wichtigsten Komponenten sind:
• Spracherkennung (Speech-to-Text): Wandelt gesprochene Sprache in Text um – entweder in Echtzeit oder als Batch-Transkription. Unterstützt Sprechererkennung und benutzerdefinierte Modelle zur Verbesserung der Genauigkeit.
• Sprachsynthese (Text-to-Speech): Konvertiert Text in natürlich klingende Sprache. Es stehen zahlreiche Standardstimmen zur Verfügung, ebenso wie die Möglichkeit, eigene Stimmen zu erstellen (mehr dazu hier).
• Sprachübersetzung: Übersetzt gesprochene Sprache in Echtzeit in andere Sprachen.
• Aussprachebewertung: Besonders nützlich für Sprachlern-Apps, um Feedback zur Aussprache zu geben.
• Speech Studio & SDKs: Entwickler können über REST-APIs, SDKs oder das Speech Studio Sprachfunktionen einfach integrieren.
Typische Einsatzszenarien sind:
• Untertitelung und Transkription
• Callcenter-Analysen
• Sprachlern-Apps
• Voice-Interfaces für Chatbots und digitale Assistenten2
Microsoft 365 Produkte mit integrierten Speech Services
1. Microsoft Teams
• Live-Untertitel und Transkription: Während Besprechungen können gesprochene Inhalte automatisch in Echtzeit transkribiert und als Untertitel angezeigt werden.
• Mehrsprachige Unterstützung: Teams nutzt Speech Services zur automatischen Übersetzung von gesprochenem Text in andere Sprachen1.
2. Microsoft Word, Outlook und OneNote
• Diktierfunktion: Nutzer können Texte per Spracheingabe verfassen. Die Spracherkennung basiert auf den Microsoft Speech Services.
• Sprachsteuerung: In Word und Outlook können bestimmte Aktionen per Sprache ausgelöst werden (z. B. „Neue E-Mail erstellen“)1.
3. Microsoft PowerPoint
• Live-Untertitelung während Präsentationen: Gesprochene Inhalte des Präsentierenden werden in Echtzeit erkannt und als Untertitel angezeigt – auch in anderen Sprachen.
4. Microsoft Edge
• Vorlesefunktion („Read Aloud“) für Webseiten und PDFs: Texte werden mit Hilfe der Text-to-Speech-Funktion vorgelesen, unterstützt durch neuronale Stimmen1.
5. Microsoft Stream (Classic und on SharePoint)
• Automatische Transkription von Videos: Speech Services werden verwendet, um gesprochene Inhalte in Videos zu erkennen und als durchsuchbare Transkripte bereitzustellen.
—
Zusätzliche Nutzung in Azure und Power Platform
• Power Automate und Power Apps: Sprachfunktionen können über Azure Speech APIs eingebunden werden, z. B. zur Spracherkennung in benutzerdefinierten Apps.
• Azure Bot Services: Bots können mit Sprachsynthese und Spracherkennung ausgestattet werden, um natürliche Sprachinteraktionen zu ermöglichen.
—
Datenschutz und Compliance bei Microsoft Speech Services
Datenschutz und Sicherheit sind insbesondere bei der Verarbeitung von Sprachdaten ein wichtiges Thema.
Die wichtigsten Aspekte sind:
Verschlüsselung und Datenspeicherung
• Alle ruhenden Daten im Speech-Dienst werden automatisch mit FIPS 140-2-konformer 256-Bit-AES-Verschlüsselung geschützt.
• Kunden können eigene Speicherlösungen nutzen („Bring Your Own Storage“), um volle Kontrolle über die Datenhaltung zu behalten 3.
Datenschutzrichtlinien
• Microsoft verarbeitet Sprachdaten ausschließlich zur Bereitstellung und Verbesserung der Dienste – nicht für Werbung oder Profilbildung.
• Die Verarbeitung erfolgt gemäß dem Data Protection Addendum (DPA), das die Einhaltung der DSGVO und anderer Datenschutzgesetze sicherstellt4.
• Audio- und Transkriptionsdaten können personenbezogene Informationen enthalten. Kunden sind verantwortlich für die Einholung notwendiger Einwilligungen und die Einhaltung lokaler Gesetze5.
• Die Verarbeitung findet immer im nächsten Rechenzentrum statt, damit auch innerhalb der EU und sogar Deutschland in Region Germany West (Azure AI Speech); ihr könnt dies in der Azure Regions und der verfügbaren Produkte auch nachschauen: https://azure.microsoft.com/en-us/explore/global-infrastructure/products-by-region/table
Compliance-Zertifizierungen
• Microsoft ist nach Standards wie ISO 27018 und ISO 27701 zertifiziert.
• Es existieren spezielle Prüflisten zur DSGVO-Compliance, die Organisationen bei der Umsetzung unterstützen6.
Quellen
https://learn.microsoft.com/de-de/azure/ai-services/speech-service/text-to-speech
https://learn.microsoft.com/de-de/azure/ai-services/speech-service/overview
https://learn.microsoft.com/de-de/azure/ai-services/speech-service/speech-encryption-of-data-at-rest
https://learn.microsoft.com/de-de/compliance/assurance/assurance-privacy
https://learn.microsoft.com/de-de/azure/ai-foundry/responsible-ai/speech-service/speech-to-text/data-privacy-security?context=%2Fazure%2Fai-services%2Fspeech-service%2Fcontext%
https://learn.microsoft.com/de-de/compliance/regulatory/gdpr-arc