Hochwertige (kommerzielle) Text to English-Sprachsoftware?

13515
bodacydo

Ich arbeite an einem Softwareprojekt und erforsche Text-to-Speech-Produkte, die verwendet werden sollen. Weiß jemand, was den aktuellen Stand der Technik für Text-zu-Sprache-Systeme ist? Idealerweise sollte die Rede von einem amerikanischen oder englischen Muttersprachler nicht unterschieden werden können. Ich suche nach Produkten mit SDK oder API, an die ich mich leicht anschließen kann.

Nur um meine Frage zu klären und zu wiederholen: Ich suche nicht nach Dingen wie Microsofts kostenlosem Text-to-Speech-Syntheseprogramm, ich suche nach einem professionellen Produkt von hoher Qualität.

2
@ Psycogeek Ich habe einen Fehler gemacht. Es ist "Text-to-Speech". Ich korrigiere es jetzt. (Jetzt erledigt - Fehler korrigiert.) bodacydo vor 12 Jahren 0
Es tut mir leid @iglvzx und @random? Warum hast du die Frage geschlossen? Es ist eine gültige Software-Frage. bodacydo vor 12 Jahren 0
Einkaufsfragen sind im gesamten SE-Netzwerk ein Thema random vor 12 Jahren 0
@ Random - Es tut mir leid, es sollte keine Einkaufsfrage sein. Ich erwähnte nur das Budget, das mir für die Lösung zugewiesen wurde, und dass ich nicht nach $ 35 API Wrapper-Shareware für Windows suchte, sondern nach einem sehr seriösen Produkt. Kann ich die Frage bitte bearbeiten und Sie wieder verfügbar machen? bodacydo vor 12 Jahren 0
@ Random - Danke für die Bearbeitung der Frage. Ich habe jetzt die Preisgestaltung entfernt und strukturiert, sodass die Preisgestaltung nicht enthalten ist. Kannst du bitte jetzt meine Frage freischalten? bodacydo vor 12 Jahren 0
Es ist immer noch eine Kauffrage und auch der aktuelle Marktzustand ist zu lokalisiert, was auch eine Vergleichsfrage ist. Außerdem wäre es nicht konstruktiv und würde eine Vielzahl von möglichen Produkten einladen, anstatt eine aktuelle Lösung für Ihre Anforderungen zu finden random vor 12 Jahren 0
Danke @random für die Antwort. Einige Leute haben es geschafft, meine Frage zu beantworten und mir Ideen für die Suche nach einer Lösung zu geben. bodacydo vor 12 Jahren 1

2 Antworten auf die Frage

4
Psycogeek

Top-Stimmen für Text-to-Speech, die ich bisher durch Branding gehört habe.
Acapela Voices http://www.acapela-group.com/text-to-speech-interactive-demo.html
Cepstral http://cepstral.com/demos/
ATT natural http://www2.research.att.com/ ~ ttsweb / tts / demo.php
Nuance RealSpeak Voices http://www.nuance.com/vocalizer5/flash/index.html Die
Microsofts-Versionen
L & H und True Voice sind unten, sofern sie nicht in letzter Zeit verbessert wurden.

(nicht sicher, wo er platziert werden soll) Cereproc http://www.cereproc.com/support/live_demo

Ich finde, dass die englischen Stimmen "UK" aus amerikanischer Sicht besser klingen können als die "amerikanischen" Stimmen. Entweder verbirgt der Akzent mehr Probleme, oder ich kenne die britischen Wendungen und Nuancen nicht genug, um so kritisch zu sein.

Alle werden auf dem Windows-System unter Verwendung von SAPI 4 & 5 ausgeführt.
Stimmen sind jedoch nicht alles, aber für eine perfekte Stimme ist ein gutes Programm mit Wörterbüchern, das Editieren der Aussprache und die übliche Abstimmung der Stimme auf bestimmte Wörter erforderlich, wenn Sie näher an einen echten Menschen herankommen möchten.

Dieser Ort http://www.nextup.com/TextAloud/SpeechEngine/voices.html enthält viele Samples, die Sie von Stimmen hören können. Es war eine gute Zusammenstellung der verschiedenen Stimmen.

Die besten der besten Stimmen, die sie sagen (ich habe sie noch nicht gehört) arbeiten nicht mit dem System alleine, sie arbeiten nur durch das separate Programm für die Stimme. Das Programm und die Stimme werden benötigt und arbeiten zusammen. Ich habe es noch nicht gefunden.

1
Lèse majesté

Ich bin kein Experte für Sprachsynthesizer, aber ich kann mir vorstellen, dass die beste Lösung wahrscheinlich von verschiedenen Faktoren abhängt. Zum Beispiel:

  • Suchen Sie eine Hardware- oder Softwarelösung?
  • Gibt es eine Begrenzung des Speicherbedarfs oder der Ressourcenintensität? Gibt es Überlegungen zur Bandbreite?
  • Benötigen Sie eine individuelle Integration?
  • Wie definieren Sie Qualität? Ist Natürlichkeit wichtiger oder verständlicher oder beständiger? Eine konkatenative Synthese erzeugt im Allgemeinen die natürlichsten / menschlich klingenden Stimmen, da sie aus kurzen aufgezeichneten Ausschnitten der tatsächlichen menschlichen Stimmen bestehen. Es erzeugt jedoch auch sehr verräterische Störungen, bei denen die verschiedenen Aufnahmen zusammengefügt werden, die bei vollsynthetischen Stimmen nicht vorhanden sind.
  • Nach welcher Art von Stimme suchst du? Die meisten Sprachsynthese-Programme scheinen viel realistischere männliche Stimmen zu haben als Frauen. Als Amerikaner klingen Stimmen mit fremden (z. B. österreichischen oder britischen) Akzenten für mich natürlicher als einfache amerikanische Stimmen.
  • In ähnlicher Weise erzeugen einige Sprachmodule natürlich klingende Sprache über eine Reihe von Konfigurationen, während andere eine insgesamt niedrigere Qualität aufweisen können, aber in einer bestimmten Konfiguration extrem realistische Sprache erzeugen können.
  • Ein weiterer anwendungsspezifischer Aspekt ist die Vielfalt des Eingangstextes, den Sie erwarten. Weil domänenspezifische Sprachsyntheseprogramme am realistischsten sein können, da sie aus tatsächlichen Voraufnahmen ganzer Wörter oder Phrasen erstellt werden. Dies kann jedoch nur verwendet werden, wenn der Eingabetext aus einer bestimmten Domäne stammt, die leicht implementiert werden kann (z. B. ein System, das Filmzeiten oder Busfahrpläne liest usw.). Wenn die Eingabedomäne klein genug ist, kann es am besten sein, einen Sprachschauspieler zu beauftragen, um alle erforderlichen Sätze und Sätze aufzunehmen.
  • Möchten Sie die Stimme einer bestimmten Person für diese Anwendung klonen? CereProc ist eine Firma, die sich auf diese Art der Sprachsynthese spezialisiert hat. Sie hat einige unglaubliche Ergebnisse erzielt, die die Persönlichkeit der Zielperson wirklich erfassen.
  • Alle vorherigen Überlegungen beziehen sich in erster Linie auf die Ausgabestimme, aber Textparsing ist auch eine Hauptkomponente der Sprachsynthese. Viele Sprachsynthesizer haben Schwierigkeiten mit verschiedenen Arten von Interpunktionen und Zifferndarstellungen (Bruchteile, Prozentsätze, Geld, Exponenten, usw.). Sie sollten auch überlegen, wie die von Ihnen gewählte Sprachengine mit kniffligen Tokenisierungen umgehen soll.

Wenn Sie so viel Geld ausgeben möchten, würde ich mir einige der Top-Marken wie Acapela, Cepestral, AT & T, CereProc, RealSpeak usw. ansehen, sie über Ihre genauen Projektanforderungen informieren und sie ansprechen, oder demonstrieren Sie jeden von ihnen vor den wichtigsten Interessengruppen für dieses Projekt, indem Sie einen tatsächlichen Eingabetext verwenden, den die endgültige Anwendung verarbeiten muss.

Vielen Dank, ich habe nicht über diese Aspekte nachgedacht. Ich habe mich jetzt mit allen Unternehmen in Verbindung gesetzt, und ich stelle morgen Telefonkonferenzen ein. bodacydo vor 12 Jahren 0