Google hat die Web-Sprach-API (sowohl für die Spracherkennung als auch für die Synthese) in Chrome implementiert, die Sie als Entwickler verwenden können. Dies ist, was YouTube verwendet, um Untertitel für einige Videos zu erzeugen. Vielleicht findest du Code, um damit zu interagieren.
Der Datenfluss wäre wahrscheinlich:
Eine Videodatei => entpacken und Audio konvertieren => an Google API senden => Text abrufen => in ein SRT schreiben.
BEARBEITEN: Abgesehen von den W3C-Spezifikationen scheint es keine offizielle API-Seite zu geben. Hier sind weitere Links:
- http://www.sitepoint.com/experimenting-web-speech-api/
- http://www.smashingmagazine.com/2014/12/05/verbesserung-von-mit-der-web-rede-api/
In diesen Beispielen geht es um die Verwendung der API in Chrome. Sie können jedoch die Online-Spracherkennungs-Engine von Google direkt abfragen. Mit Jasper, einem spracherkennenden persönlichen Assistenten für Raspberrry Pi, können Sie beispielsweise Google als Spracherkennungsmodul auswählen .