Freie Spracherkennung: Mozilla entwickelt Voice-Recognition für alle

3. Dezember 2018 | by Jochen Siegle

Freie Spracherkennung: Mozilla entwickelt Voice-Recognition für alle

Die gemeinnützige Mozilla Foundation stellt nicht nur den populären Internet-Browser Firefox her, sondern entwickelt auch ein System zur Spracherkennung. Das Projekt nennt sich Deep Speech und soll eine frei zugängliche Alternative zu den Voice-Recognition-Systemen bieten, mit denen die grossen Tech-Konzerne den Markt beherrschen.

 

Nun hat Mozilla eine neue Version des im November letzten Jahres veröffentlichten Spracherkennungsmodells bereitgestellt. Damit sind zum erstenmal auch Echtzeit-Anwendungen möglich.

Gesprochenes wird direkt in Text umgewandelt

Wie Mozillas Maschinenlernen-Spezialisten in einem Blogeintrag erklären, können damit beispielsweise für Live-Radiosendungen oder Keynote-Präsentationen auf Konferenzen künftig direkt Untertitel erstellt werden, während gesprochen und das Gesagte aufgezeichnet wird. Bislang war eine Verarbeitung nur möglich, wenn die Spracheingabe abgeschlossen war.

Die «Deep Speech»-Sprache-zu-Text-Engine wird von Mozillas Crowdsourcing-Initiative «Common Voice»flankiert, die für den notwendigen Stimmdatensatz zur Verwendung in der Spracherkennungstechnologie sorgt.

Common Voice, für das jeder Internet-Nutzer mit seiner Stimme beitragen kann, wurde im November veröffentlicht und ist seit Juni mehrsprachig – neben Englisch wird der Datensatz jetzt auch mit Sprachsamples in Deutsch, Französisch und Walisisch gefüttert. Ausserdem arbeitet Mozilla am Launch von 40 weiteren Sprachversionen.

Freier Zugang zu komplexer Spracherkennung

Die Mozilla Foundation ist eine US-amerikanische Non-Profit-Organisation, die zur Unterstützung kostenloser Software im Jahr 2003 ins Leben gerufen wurde.

Die Stiftung verfolgt das Ziel, Deep Speech für unabhängige Entwickler frei zugänglich zu machen, und erhofft sich von der Technologie im Zusammenspiel mit der ständig wachsenden Common-Voice-Sprachdatenbank «eine Welle von innovativen Produkten und Dienstleistungen».

Eigenen Angaben zufolge wurden die Sprachdaten bereits tausendfach heruntergeladen und in kommerziellen Spracherkennungsprodukten genauso wie von Open-Source-Software genutzt.

Mehr bei TechFieber zum Thema: , , ,

Antwort schreiben