Spracherkennung

Viele haben Alexa, Siri und Google schon längst in den Alltag integriert, und sie haben die Art und Weise, wie wir unser tägliches Leben gestalten, bestimmt beeinflusst. Die Pandemie führte jedoch zu einem zusätzlichen Interesse an der Sprachtechnologie, nicht nur im Privatleben, sondern auch im beruflichen Alltag.

Spracherkennung
Spracherkennung

Heutzutage gibt es eine große Vielfalt an professionellen Spracherkennungsoptionen, aber in Zeiten von hybriden Arbeitsumgebungen und sich ständig ändernden Anforderungen sind die meisten Menschen, die häufig und genau dokumentieren müssen, auf der Suche nach einfachen und flexiblen Sprache-zu-Text-Lösungen, die von überall und jederzeit genutzt werden können. Da hybride Arbeitsweisen immer beliebter werden, wird auch die cloudbasierte Sprachtechnologie-Lösung, Philips SpeechLive ständig verbessert und um zusätzliche Funktionen erweitert

Philips SpeechLive, die cloudbasierte Diktier-, Transkriptions- und Sprache-zu-Text-Lösung auf Abo-Basis, lässt sich überall dort einsetzen, wo ein erhöhter Bedarf an Dokumentenerstellung vorhanden ist, egal ob es sich um einfache Notizen oder E-Mails, Abschriften, juristische Dokumente, Versicherungsansprüche oder Ähnliches handelt. Darüber hinaus lässt es sich nahtlos in Arbeitsabläufe integrieren, unabhängig von der Unternehmensgröße. Und nicht zuletzt wandelt es Sprache mühelos in Text um, sei es im Büro, zu Hause oder unterwegs.

Da es sich um eine Cloud-Lösung handelt, ist sie äußerst flexibel und vielseitig. In den letzten Jahren hat die Cloud-Technologie zunehmend an Popularität gewonnen und sich stetig verbessert. Sie bietet erhebliche Vorteile gegenüber den traditionellen On-Premise-Versionen. Das Datenvolumen, das erforderlich wäre, um z.B. die Desktop-App auf einer lokal installierten Software abzubilden, wäre einfach zu groß und ließe sich nur schwer verbessern. Um unseren Kunden ewige Installations- und Updateprozesse zu ersparen, stellt die Cloud eine optimale Lösung dar. Dadurch ist SpeechLive "Plug & Play" - das heißt, man muss sich keine Gedanken über die Installation machen.

Gratis testenDemo buchen

Bevor wir genauer darauf eingehen, wie Spracherkennung in SpeechLive funktioniert, werfen wir zuerst einen kurzen Blick darauf, was Spracherkennung eigentlich ist.

Spracherkennung auf einen Blick

Spracherkennung, oft auch als Sprache-zu-Text bezeichnet, ist die Fähigkeit, die es einer Maschine oder einem Programm ermöglicht, gesprochene Wörter zu erkennen, zu verarbeiten und diese in geschriebenen Text umzuwandeln. Die Spracherkennung existiert bereits seit rund 60 Jahren und hat sich in dieser Zeit enorm weiterentwickelt. In den Anfangszeiten konnte eine der ersten Spracherkennungsmaschinen 16 Wörter erkennen, in den 90er Jahren waren es durchschnittlich 40.000. Darüber hinaus wurden neben dem Englischen auch andere Sprachen unterstützt.

Wer braucht Spracherkennung überhaupt?

Der Anwendungsbereich ist sehr breit - vor allem dort, wo in der Vergangenheit schon häufig diktiert wurde. Ob Anwälte, Krankenpfleger oder Bauingenieure - es gibt viele Berufe, in denen es wirklich notwendig ist, Notizen zu machen und Nachrichten sofort zu versenden. Sei es bei der Besichtigung eines Bauobjekts oder bei Kundengesprächen - Informationen müssen erfasst und ausgetauscht werden. Genau aus diesem Grund bietet SpeechLive einen so umfassenden Workflow mit Spracherkennung und ermöglicht eine schnellere Dokumentation für diejenigen, die keine Schreibkraft haben und viel dokumentieren müssen. Damit lässt sich sowohl Zeit als auch Ressourcen und Geld sparen.

Lange vorbei sind die Zeiten, in denen Anwälte ihren Sekretärinnen Aufnahmen zur Transkription schicken mussten. Heute können sie in der App einfach die Spracherkennung auswählen und den durch die Spracherkennung transkribierten Text bei Bedarf einfach nur zur Korrektur senden. Sie können auch direkt die Echtzeit-Spracherkennung nutzen, um ihren Assistenten Zeit für die weitere Bearbeitung und Fertigstellung des Dokuments zu sparen.

Mit der Smartphone-App können Sachverständige einfach Schadensberichte diktieren und sie zur Transkription per Spracherkennung senden oder gleich die Spracherkennung in Echtzeit verwenden. Darüber hinaus können sie auch gleich Bilder anhängen. Sobald sie wieder im Büro sind, können sie ihre Berichte schnell bearbeiten und fertigstellen.

Vertriebs-/Außendienstmitarbeiter können auch bequem Besuchsberichte mit Spracherkennung erstellen und E-Mails direkt an Kunden senden oder Einträge in einem CRM-System schnell und nahtlos mit Echtzeit-Spracherkennung in der Desktop-App durchführen.

Warum man professionelle Spracherkennung braucht

Nach wie vor kann eine vergleichsweise rudimentäre Spracherkennungssoftware nur eine begrenzte Anzahl von Wörtern und Sätzen erkennen und auch nur dann, wenn sie deutlich ausgesprochen werden, da das Vokabular meistens recht begrenzt ist. Professionelle Software hingegen verstehen nicht nur die natürliche Sprache, sondern auch eine Vielzahl von Sprachen und Akzenten. In den letzten Jahren hat sich die Sprachtechnologie beschleunigt, vor allem durch Deep Learning und künstliche Intelligenz.

Einer der wichtigsten Gründe, warum man eine professionelle Lösung braucht, insbesondere wenn man mit sensiblen Daten arbeitet, ist jedoch die Sicherheit. Der Grundstein für die Sicherheit von Kontodaten ist die Multi-Faktor-Authentifizierung, die zusätzlich zum Passwort einen zweiten Faktor erfordert - oft einen per E-Mail zugesandten einmaligen Code. Auch SpeechLive nutzt diese MFA zum Einloggen. Die Verschlüsselung ist beim Umgang mit Dateninhalten von entscheidender Bedeutung. Um sicherzustellen, dass nur der ausgewählte Benutzer sie tatsächlich entschlüsseln und nutzen kann, werden alle Informationen, Diktate, Abschriften usw. verschlüsselt. Durch die Kombination dieser beiden Aspekte kann SpeechLive die erforderliche Datensicherheit gewährleisten.

So funktioniert die Spracherkennung in SpeechLive

SpeechLive bietet zwei Eingabemöglichkeiten basierend auf Sprache - Diktat und Spracherkennung. Das heißt, es besteht die Möglichkeit, entweder ein klassisches Diktat zu erstellen und nur eine Audiodatei zu erhalten oder die Spracherkennung zu nutzen, die das Gesprochene transkribiert, bei Bedarf sogar in Echtzeit. In beiden Fällen wird eine Audiodatei erstellt. Der Unterschied ist, dass man mit der Spracherkennung direkten Zugriff auf eine Transkription hat.

Diktate an die Spracherkennung senden

Es gibt viele Möglichkeiten, die eigene Stimme aufzunehmen. Viele arbeiten mit digitalen Diktiergeräten, die speziell für die effiziente Aufnahme von Diktaten entwickelt wurden. Man kann auch mit einem Diktiermikrofon arbeiten, das entweder über USB oder kabellos mit dem Computer verbunden ist. Und natürlich gibt es auch eine App, die bei Bedarf das Smartphone in ein Diktiergerät verwandelt.

Jeder hat die Wahl, und je nach Situation kann man unterschiedliche Einstellungen bevorzugen. Für schnelle Notizen unterwegs ist das Smartphone wahrscheinlich die beste Wahl, aber für längere Aufnahmen wird ein professionelles und ergonomisches Diktiergerät schnell die bessere Option sein, beispielsweise aus der Philips Diktiergerätefamilie.

Sobald die Aufnahmen fertig sind, können sie sicher von der App aus gesendet oder vom Aufnahmegerät in SpeechLive hochgeladen und an die Transkriptionsoption der Wahl gesendet werden.

Sprache-zu-Text in Echtzeit nutzen

Echtzeit-Sprache-zu-Text oder Echtzeit-Spracherkennung ist die Funktionalität, die das Gesprochene mit Hilfe von Spracherkennung sofort niederschreibt. Die von einem Mikrofon aufgenommenen Wörter und Sätze werden vom Programm erkannt und gleich verschriftlicht. Eine Funktion, die heute schon an vielen Stellen zum Einsatz kommt und es den Nutzern ermöglicht, einfach und schnell Texte oder Nachrichten zu erstellen, ohne diese abtippen zu müssen.

Diese Funktionalität sorgt für ein hohes Maß an Freiheit - sie ist nicht nur extrem einfach und intuitiv zu bedienen, sondern kann auch plattformübergreifend genutzt werden. Sowohl auf dem Desktop des PCs in jeglicher Desktop-Software, im Browser über speechlive.com als auch in der Smartphone-App. Somit ist man völlig ortsunabhängig - und kann ganz unkompliziert und synchronisiert arbeiten.

Diese Funktion ist jedoch als Zusatzpaket zu einem Pro-Business-Konto erhältlich. Nach der Einrichtung eines Business-Kontos bei speechlive.com kann einfach das STT-Paket dazu gebucht werden. Da es sich um ein Flatrate-Paket mit einer Fair-Use-Policy handelt, kann beliebig viel diktiert werden, ohne sich um den Verbrauch von Minuten sorgen zu müssen.

Insgesamt gibt es drei verschiedene Möglichkeiten, die Spracherkennung zu nutzen - wahlweise auf dem Smartphone, auf dem Desktop oder im Browser, und zwar nahtlos über alle Plattformen hinweg, unabhängig von Zeit und Ort. Auch für die Spracherkennung gibt es zwei Möglichkeiten: Entweder Sie lassen Ihre gesprochenen Worte in Text umwandeln, während Sie sprechen, oder Sie laden eine Audiodatei hoch, um sie mit Spracherkennung im Hintergrund transkribieren zu lassen.

Außerdem werden insgesamt 22 Sprachen und Sprachvarianten derselben Sprache, wie beispielsweise der englischen oder französischen Sprache, unterstützt, somit kann man zum Beispiel eine E-Mail auf Englisch eingeben und im nächsten Moment bereits Notizen auf Deutsch erstellen.

Spracherkennung in der Browser-App

Die Verwendung der Browser-App ist sehr einfach, da keine Installation erforderlich ist. Aufnahmen können problemlos erstellt und verwaltet werden, Texte können schnell in der App korrigiert oder kopiert werden. Echtzeit-Spracherkennung in allen verfügbaren Sprachen ist ebenso möglich.

  1. Melden Sie sich einfach mit Ihren Zugangsdaten an
  2. Auf der linken Seite finden Sie eine Übersicht sowohl der aktuellen als auch der archivierten Diktate. Hier können Sie filtern bzw. die Ansicht ändern.
  3. Klicken Sie auf den Hochladen-Button, um eine Aufnahme hochzuladen.
  4. Falls Sie etwas gelöscht haben und es wieder brauchen, klicken Sie einfach auf den Diktat- Wiederherstellen- bzw. den Spracherkennung-Wiederherstellen-Button.
  5. Mit dem Aktualisieren-Button können Sie die Seite jederzeit neu laden.

Spracherkennung in der Desktop-App

Die Desktop-App wurde kürzlich komplett neu gelauncht. Ziel der Desktop-App ist es, die Sprache-zu-Text-Funktion überall einsetzbar zu machen. Diese Funktionen sind meistens innerhalb von Anwendungen in einer eher eingeschränkten Form möglich. Die Desktop-App macht es jedoch möglich, und zwar unabhängig davon, welches Programm gerade läuft. Wo immer man einen Cursor platziert, kann das Gesprochene gleich in Text umgewandelt werden. Dies gilt für E-Mail, Word, MS Teams, Salesforce oder andere Programme. Der Anwendungsbereich kennt keine Grenzen.

  1. Hier können Sie die SpeechLive-Desktop-App auf Ihren Computer herunterladen.
  2. Starten Sie die heruntergeladene Installationsdatei und folgen Sie dem Installationsprozess.
  3. Sie können die SpeechLive-Desktop-App über das Startmenü von Windows starten.
  4. Melden Sie sich mit Ihren Zugangsdaten für SpeechLive an. Wenn Sie die Option “Angemeldet bleiben” verwenden, müssen Sie Ihre Anmeldedaten später nicht erneut eingeben.
  5. Platzieren Sie den Cursor an der gewünschten Stelle und drücken Sie die Spracherkennungstaste, um Ihre Worte in Text umzuwandeln.

Spracherkennung in der Smartphone-App

Die gesamte Funktionalität von SpeechLive ist in einer Smartphone-App integriert, so dass man jederzeit und von überall aus arbeiten kann. Die Smartphone-App kann sowohl für die Erstellung eines klassischen Diktats als auch für die Spracherkennung in Echtzeit verwendet werden. Außerdem gibt es die Möglichkeit, Diktate direkt in der App an die Spracherkennung zu senden. Die App wird stets mit der Browser-App synchronisiert – wo man Diktate jederzeit aktualisieren kann. Auch hier können Sie wie in der Browser-App diktieren, korrigieren, kopieren, zuweisen, usw. Außerdem bekommt die App regelmäßig Updates.

  1. Smartphone-App für iOs oder Android einfach herunterladen
  2. Um ein Diktat zu starten, klicken Sie auf den Diktat-Button, für Sprache-zu-Text klicken Sie auf den Sprache-zu-Text- Button. Das Diktat kann jederzeit unterbrochen werden. Außerdem kann jederzeit zurückgespult, abgespielt, vorgespult, überschrieben oder hinzugefügt werden.
  3. Bei der Verwendung von Sprache-zu-Text zuerst die gewünschte Sprache auswählen.
  4. Es gibt eine Liste von Sprachbefehlen innerhalb der App, außerdem können Prioritäten gesetzt werden oder Arbeitstypen hinzugefügt werden. Auf Wunsch lassen sich auch Bilder aus der Galerie anhängen oder man kann direkt in der App ein Foto machen und es sofort hochladen.
  5. Diktate werden unter der Registerkarte "Entwurf" gespeichert.
  6. Beim Einsatz von Sprache-zu-Text kann der Text bei Bedarf auch über die Tastatur korrigiert werden. Wenn Sie fertig sind, können Sie den Text einfach kopieren und einfügen oder ihn per E-Mail versenden.

All diese Funktionen und der Workflow von SpeechLive lassen sich natürlich völlig kostenlos auf der Website testen. Überzeugt? Am besten gleich ausprobieren!

Gratis testenDemo buchen