Eine Einführung in die Spracherkennung

newsItem.txWebsitetemplateAuthor.name
Steve Newton | Übersetzung: Valentin Hartmann

Eine Überprüfung der Entwicklung der Spracherkennung von ihren frühen Anfängen, der zunehmenden Rolle künstlicher Intelligenz und wie sie sich auf den täglichen Betrieb heutiger Unternehmen auswirkt.

Eine Einführung in die Spracherkennung
Eine Einführung in die Spracherkennung

Eine Übersicht über die Entwicklung der Spracherkennung von ihren frühen Anfängen, die zunehmende Rolle künstlicher Intelligenz und wie sie den Arbeitsalltag heutiger Unternehmen beeinflusst.

Die Spracherkennung, auch bekannt als automatische Spracherkennung (ASR), Computerspracherkennung oder Sprache-zu-Text, ist eine Fähigkeit, die es einem Programm ermöglicht, menschliche Sprache zu identifizieren und in lesbaren Text umzuwandeln.

Während die einfachere Spracherkennungssoftware über einen begrenzten Wortschatz verfügt, sehen wir heute immer mehr hochentwickelte Software, die natürliche Sprache, verschiedene Akzente und verschiedene Sprachen verarbeiten kann und dabei wesentlich höhere Genauigkeitsraten erzielt. Die Nutzung von Spracherkennungstechnologie in unserem Alltag nimmt ebenfalls zu, da immer mehr Menschen digitale Assistenten wie Google Home, Siri und Amazon Alexa nutzen.

Wie hat sich diese Technologie entwickelt, wie funktioniert sie und welche Möglichkeiten gibt es für Unternehmen und Fachleute in zahlreichen Branchen, die Spracherkennung in ihrer täglichen Arbeit einzusetzen?

Geschichte

Hier ist ein kurzer Überblick über die Entwicklung der Spracherkennung von den frühen Prototypen bis heute:

  • 1952 - Das erste Spracherkennungssystem namens "Audrey" wurde von den Bell Laboratories entwickelt. Es konnte gesprochene Ziffern von null bis neun erkennen und mit einer Genauigkeit von mehr als 90% erkennen, wenn sie von einer einzigen Stimme (ihrem Entwickler HK David) ausgesprochen wurden.
  • 1962 – IBM entwickelte das "Shoebox", ein Gerät, das zwischen 16 gesprochenen englischen Wörtern unterscheiden konnte.
  • 1970er Jahre - Im Rahmen eines vom US-Verteidigungsministerium finanzierten Programms entwickelte die Carnegie Mellon University das System "Harpy", das ganze Sätze erkennen konnte und einen Wortschatz von 1.011 Wörtern hatte.
  • 1980er Jahre – IBM entwickelte eine sprachgesteuerte Schreibmaschine namens "Tangora", die ein statistisches Vorhersagemodell für die Wortidentifikation mit einem Wortschatz von 20.000 Wörtern verwendete.
  • 1996 – IBM war erneut beteiligt, dieses Mal mit "VoiceType Simply Speaking", einer Spracherkennungsanwendung mit einem Wortschatz von 42.000 Wörtern, Unterstützung für Englisch und Spanisch sowie einem Rechtschreibwörterbuch mit 100.000 Wörtern.
  • 2000er Jahre – Mit einer Genauigkeitsrate von nahezu 80% kam die Spracherkennung nun vermehrt in Form von Sprachassistenten (auch als digitale Assistenten bekannt) auf den Markt, zunächst Google Voice, gefolgt von Apples Einführung von Siri und Amazons Alexa.

Funktionsweise

Es gibt eine Vielzahl von Spracherkennungsanwendungen und -geräten, wobei die fortschrittlicheren Lösungen heute Künstliche Intelligenz (KI) und maschinelles Lernen nutzen. Sie basieren in der Regel auf folgenden Modellen:

  • Akustische Modelle – ermöglichen die Unterscheidung zwischen der Stimme und den Phonemen (den Klangeinheiten).
  • Aussprachemodelle – definieren, wie die Phoneme kombiniert werden können, um Wörter zu bilden.
  • Sprachmodelle – ordnen Klänge mit Wortfolgen zu, um zwischen gleich klingenden Wörtern zu unterscheiden.

Anfänglich wurde das Hidden Markov Model (HMM) weitgehend als akustische Modellierungsstrategie eingesetzt. Es wurde jedoch weitgehend durch Deep Neural Networks ersetzt. Die Verwendung von Deep Learning in der Spracherkennung hat dazu geführt, dass die Wortfehlerrate erheblich gesenkt wurde.

Wortfehlerrate

Ein wichtiger Faktor bei der Spracherkennungstechnologie ist ihre Genauigkeitsrate, die häufig als Wortfehlerrate (WER) bezeichnet wird. Verschiedene Faktoren können die WER beeinflussen, wie zum Beispiel unterschiedliche Sprechmuster, Sprechstile, Sprachen, Dialekte, Akzente und Formulierungen. Die Herausforderung für die Softwarealgorithmen, die Audio in Text umwandeln und organisieren, besteht darin, diese Faktoren effektiv zu berücksichtigen und gleichzeitig das gesprochene Audio von Hintergrundgeräuschen zu trennen, die oft das Signal begleiten.

Anwendung der Spracherkennung

Dank Laptops, Tablets und Smartphones sowie der schnellen Entwicklung von KI hat die Spracherkennungssoftware Einzug in alle Bereiche unseres täglichen Lebens gehalten. Beispiele hierfür sind:

Virtuelle Assistenten

Diese integrieren sich in verschiedene Plattformen und ermöglichen es uns, unsere Geräte einfach durch Sprechen zu steuern. Auf persönlicher Ebene sind Beispiele Siri, Alexa und Google Assistant. Im Büro können sie die Arbeit von Mitarbeitern ergänzen, indem sie sich um wiederholende, zeitaufwändige Aufgaben kümmern und den Mitarbeitern ermöglichen, ihre Energie auf wichtigere Aktivitäten zu konzentrieren.

Sprachsuche

Die Spracherkennungstechnologie beeinflusst nicht nur die Art und Weise, wie Unternehmen ihre täglichen Aufgaben erledigen, sondern auch, wie ihre Kunden sie erreichen können. Die Sprachsuche wird typischerweise auf Geräten wie Smartphones, Laptops und Tablets verwendet und ermöglicht es den Benutzern, eine sprachbasierte Suchanfrage einzugeben, anstatt ihre Anfrage in eine Suchmaschine einzutippen. Die Unterschiede zwischen gesprochenen und geschriebenen Suchanfragen können zu unterschiedlichen Suchmaschinenergebnissen führen, da die Art und Weise, wie wir sprechen, neue sprachgesteuerte Suchbegriffe erzeugt, die eher gesprächlich sind als geschriebene Schlüsselwörter.

Sprache-zu-Text-Lösungen

Und schließlich ist der bedeutendste Bereich, was Business-Nutzer betrifft, die Sprache-zu-Text-Software. Dieser Bereich wächst rapide, nicht zuletzt aufgrund cloudbasierter Lösungen, die es den Benutzern ermöglichen, voll ausgestattete Sprache-zu-Text-Anwendungen von Smartphones oder Tablets unabhängig von ihrem Standort aus zu nutzen. Darüber hinaus kann die Spracherkennungstechnologie repetitive Aufgaben reduzieren und Fachleute entlasten, sodass sie ihre Zeit produktiver nutzen können. Gleichzeitig können Unternehmen durch Automatisierung von Prozessen und schnelleres Erledigen administrativer Aufgaben Geld sparen.

Erfahren Sie mehr über unseren Sprache-zu-Text-Service