Wie können 22,05 kHz Sprach-Audiomaterial für Hörzwecke auf 44,1 kHz verbessert werden?

565
Konstantin

Ich habe im Internet eine wirklich interessante Radioromane gefunden, und ich möchte einen meiner Bekannten darauf aufmerksam machen. Leider hat das Audiomaterial eine schlechte Qualität, nur 22,05 kHz und 1 Kanal, Mono. Es enthält jedoch keine Musik, nur Sprache. Im Allgemeinen klingt es wie ein altes Radio oder ein altes Telefon. Ich möchte es ein wenig verbessern, bevor ich es an meinen Freund schicke. Welche Software sollte ich verwenden und welche Operationen sollte ich mit der Audiodatei ausführen, damit sie besser klingt?

1
Kannst du eine Probe des Audios teilen? Attie vor 5 Jahren 1
Ja, natürlich: https://drive.google.com/open?id=1Sz8YF-fbDI5MoCnXuVNYyPq6-7O_rAD8 Konstantin vor 5 Jahren 1
Danke, siehe meine aktualisierte Antwort. Attie vor 5 Jahren 0
Vielleicht können Sie es durch ein sehr ausgereiftes Sprachrekonstruktionsmodell laufen lassen, wie beschrieben [hier] (https://auphonic.com/blog/2018/06/01/codec2-podcast-on-floppy-disk/). Ich bin jedoch mit den Anforderungen überhaupt nicht vertraut. Daniel B vor 5 Jahren 1

4 Antworten auf die Frage

3
Albin

Wenn die Samplerate für die Aufnahme der Stimme 22 kHz betrug, können Sie sie nicht einfach verbessern, indem Sie sie auf 44 kHz setzen. Sie können es mit einem Bitmap-Bild vergleichen: Sie erhalten keine weiteren Details, wenn Sie "die Pixel größer machen". Gleiches gilt für Mono / Stereo. Wenn Sie eine Mono-Aufnahme haben, können Sie keine Stereoaufnahme machen. Es funktioniert nur umgekehrt, zB Stereo in Mono umwandeln.

Wenn es jedoch andere "Probleme" gibt, z. B. wenn bestimmte Teile der Aufnahme nicht genügend Volumen haben, können Sie dies möglicherweise korrigieren oder abrupte Änderungen ausgleichen. Dies hängt jedoch von der Art des Problems ab. Es gibt keine allgemeine Lösung. Sie sollten sich mit dem Thema vertraut machen, damit Sie wissen, was das "technische Problem" ist, und dann sollten Sie versuchen, eine Lösung zu finden. Wenn Sie Probleme bei der Anwendung dieser Lösung haben (eine Lösung für ein sehr spezifisches akustisches Problem zu finden), sollten Sie sich zu diesem Thema erneut erkundigen.

Ich verstehe, aber wenn ich digitale Bilder vergrößere, werden sie auch in gewissem Sinne neu abgetastet. Wir können sagen, dass sie neu skaliert werden. Und es gibt einen schlechten, guten und noch besseren Algorithmus für die Neuskalierung von Bildern: Nächster Nachbar, Bilinear, Bikubisch, Lanczos usw., um die fehlenden Pixel zu interpolieren. Ich dachte, dass es auch für Audiodateien einen ähnlichen Ansatz geben muss. Konstantin vor 5 Jahren 0
@Konstantin Ja, es gibt mehrere "Filter" oder andere Manipulationen, die Sie auf Audio anwenden können, analog zu der Art, wie Sie Bilder verbessern. Leider gibt es keine allgemeine Methode, um Bilder "besser" zu machen. Sie können einige Algorithmen ausprobieren, ohne wirklich zu wissen, was Sie tun, und sehen, ob Ihnen das Bild besser gefällt. Wenn dies nicht funktioniert, müssen Sie mehr wissen, wie Sie Ihr spezifisches Problem analysieren können. Gleiches gilt für Audio. Albin vor 5 Jahren 2
3
Attie

22,05 kHz ist nicht " schlechte Qualität ", was das gesprochene Wort angeht ... Der größte Teil der Audible-Bibliothek verfügt über eine Samplerate von 22,05 kHz - selbst für Dateien mit " hoher Qualität ".

Wenn die Aufnahme " schlecht klingt ", dann liegt das wahrscheinlich an etwas anderem:

  • Bittiefe (8-Bit vs. 16-Bit)
  • Komprimierung (MP3 mit niedriger Bitrate vs. AAC oder OGG)
  • Mikrofon (billig vs nicht ganz so billig)
  • Positionierung des Mikrofons gegenüber dem Leser
  • Originalmedium (analoge / digitale / Kassette / MiniDisc oder PC)
  • eine frühere Aufwärtsstichprobe von einer weit niedrigeren Abtastrate (was Sie jetzt versuchen).

In jedem Fall sind die Informationen jetzt verloren und es wird schwierig sein, sie zurück zu bekommen. Das Beste, was Sie wahrscheinlich tun können, ohne viel Zeit damit zu verbringen, besteht darin, einen EQ so anzupassen, dass er akzeptabler klingt.


Das von Ihnen zur Verfügung gestellte Sample klingt für mich gar nicht so schlecht (obwohl ich die Sprache nicht spreche, fehlen möglicherweise einige Nuancen ...).

Ich möchte den EQ ein wenig anpassen und das Audio " normalisieren ", um den Pegel zu erhöhen. Vielleicht empfinden Sie eine schlechte Aufnahme als tatsächlich das Rauschen in Ihrem System, das durch die Erhöhung der Lautstärke deutlicher wird.

Die Wellenform ändert sich wie folgt (mit Audacity), vor (oben) und nach (unten):

Kühnheit vor (oben) und nachher (unten)

Die Aufnahme hat etwas Nachhall (der wahrscheinlich aus dem Raum kommt und möglicherweise etwas zu weit vom Mikrofon entfernt ist). Es gibt jedoch ein minimales Hintergrundrauschen (daher die schmalen Abschnitte der Wellenform), keine Verzerrung und nur einen einzelnen Pop in der gesamten Datei (nicht oben gezeigt).

2
Tetsujin

Wie bereits erwähnt, ist die Aufnahme von 22,05 kHz für gesprochenes Wort an sich nicht "schlecht". Es kann jedoch auch nicht wirklich "fixiert" werden, da in der Aufnahme keine Informationen hervorgehoben werden müssen. Sie können nur mit dem arbeiten, was bereits da ist.

Einige Erklärungen ... Die menschliche Stimme ist bei 2 - 6 kHz wirklich am deutlichsten. Dort befinden sich alle Konsonanten und was dem Zuhörer wirklich hilft zu entscheiden, was tatsächlich gesagt wird; Es ist auch der Grund, warum die Finger in den Ohren bleiben, was die Verständlichkeit reduziert, hauptsächlich diese höheren Frequenzen blockiert.
Es gibt Informationen in der Sprache oberhalb von 6 kHz, aber sie sind viel höher als das. & 11 kHz gibt es nur noch sehr wenige nützliche Informationen.

Also - für gesprochenes Wort verwenden sie 22,05 kHz als Abtastfrequenz.
Es gibt eine sehr komplexe Audioanalyse namens Nyquist-Shannon-Sampling-Theorem, die oft nur als Nyquist-Limit bezeichnet wird. Im Grunde läuft es so aus:
"Die höchste Audiofrequenz, die in einer Audiodatei aufgezeichnet werden kann, ist die Hälfte der Abtastfrequenz."
Das entspricht ungefähr 11 kHz bei einer Aufnahme von 22,05 kHz.
Das ist genug für eine menschliche Stimme.

Dies bedeutet auch, dass darüber keine Informationen mehr vorhanden sind, auch wenn Sie die Abtastfrequenz auf bis zu 44,1 kHz ändern [CD-Audioqualität].

Weiter zu Ihrem Hörbuch.
Das Problem, so wie ich es höre, ist, dass der Leser etwas nahe am Mikrofon war. Dadurch werden niedrigere Frequenzen hervorgehoben, was als Näherungseffekt bezeichnet wird . Hier muss nicht auf alles eingegangen werden, aber insgesamt ist die Aufnahme ein bisschen bassig geworden.
Es wurde auch etwas komprimiert - der Dynamikbereich wurde reduziert, so dass die leisen Bits lauter und die lauten Bits leiser sind. Dies sollte die Verständlichkeit unterstützen, aber es wurde nicht so gut gemacht, wie es hätte sein können, und tendiert dazu, den Bass noch stärker zu betonen. Der einzige Grund, den ich mir dabei vorstellen kann, ist, dass der Leser "männlicher, autoritärer" klingt .., aber er hilft nicht im geringsten, die Verständlichkeit zu verbessern: /

Wir müssen dann den Bass reduzieren, die Höhen betonen und versuchen, die starke Kompression etwas zu betonen.
Das meiste davon könnte mehr oder weniger in Audacity erledigt werden, aber ich fühle mich in Cubase wohler.

Die meisten Leute würden Ihnen zuerst sagen, die Datei zu normalisieren.
Tun Sie dies nicht zuerst - Sie werden Ihre potenzielle Headroom töten.
Wenn Sie es überhaupt tun müssen, tun Sie es zuletzt .

Beachten Sie auch, dass Sie die bereits angewendete Komprimierung nicht "rückgängig machen" können. Dies entspricht, wenn Sie die Eier und das Mehl von einem gebackenen Kuchen zurückbekommen. Stattdessen können Sie nur versuchen, sie in den am stärksten betroffenen Gebieten zu mildern.

Wenn Sie nur mit Equalization arbeiten müssen, können Sie versuchen, die Pegel unter 250 Hz zu reduzieren und sanft darunter zu rollen. Sie können dann versuchen, einige Konsonanten zurückzugewinnen, indem Sie eine entgegengesetzte Steigung von über 2 oder 3 kHz hinzufügen.

Ich entdeckte ein irritierendes Klicken oder einen Lippenschmuck um etwa 3:40, das ich einfach auswählte und auf Null reduzierte - man könnte mit einem De-Clicker klug werden, aber die Mühe hat sich nicht gelohnt.

Meine bevorzugte Waffe für jede Rettungsaktion ist ein Multiband-Kompressor.
Ich habe einen kostenlosen Multi-Band-Comp für Audacity gefunden, obwohl ich es selbst nicht ausprobiert habe, so YMMV - https://www.gvst.co.uk/gmulti.htm

Ich benutze das wesentlich teurere Waves LinMB, aber die generelle Idee ist die gleiche. So habe ich es eingerichtet ...

Aus dem Bild kann man sehen, dass ich das untere Ende wirklich hart getroffen habe, um zu versuchen, diesen übermäßigen Boom zu entfernen. Die Mitte lasse ich so ziemlich unberührt. Die Hochs haben ihren Output erhöht, während gleichzeitig eine leichte Kompression angewendet wurde, damit einige der schwereren S usw. nicht zu schlagkräftig werden. Zu diesem Zeitpunkt habe ich noch nicht die Gesamtlautstärke erhöht - wir haben immer noch viel Spielraum zum Spielen, und es ist am besten, wenn Sie Ihren Effekt zum Vergleich ein- und ausschalten, dass Sie sich nicht einfach mit der Lautstärke täuschen Veränderung.

Schnelle Beispiele -
vorher ...

https://soundcloud.com/graham-lee-15/antal-vegh-orig?in=graham-lee-15/sets/intelligibility-fix

nach dem...

https://soundcloud.com/graham-lee-15/antal-vegh-linmb?in=graham-lee-15/sets/intelligibility-fix

Sobald Sie mit dem Klang zufrieden sind, können Sie jetzt normalisieren.

Beachten Sie, dass meine Beispiele eine höhere Abtastrate haben, da ich nicht direkt am 22.05 exportieren kann. Dies hat keinerlei Auswirkungen auf das Ergebnis.

Ein Trick bei der Arbeit mit Bildern besteht darin, die Bittiefe beim Arbeiten mit Farbverläufen zu erhöhen und dann wieder auf 8 Bit zu dither. Dies reduziert oder eliminiert sogar visuelle Streifenbildung. Ich frage mich, ob eine solche Technik in diesem Zusammenhang nützlich ist (Bittiefe erhöhen, Filter anwenden usw., dann wieder dither). Yorik vor 5 Jahren 0
Möglicherweise. Tbh, ich habe es auf 16-Bit 44.1 angehoben, aber ich bin nicht sicher, wie so etwas wie Audacity damit umgehen würde. An und für sich sollte es keinen Unterschied machen, es sei denn, Sie setzen höhere Harmonische zusammen, was meiner Meinung nach eine Brücke zu weit für eine Frage ist, die als Einstiegsabfrage erscheint. Auch für solo gesprochene Wörter können Sie wirklich mit einem 6-kHz-Cutoff davonkommen und trotzdem die volle ** Verständlichkeit behalten, auch wenn keine "schöne HiFi-Anlage" vorhanden ist. Überlegen Sie, was Telefone mit einem Audiosignal tun: / Tetsujin vor 5 Jahren 0
-1
Saurav Kumar Sahu

Verwenden Sie Audacity, eine Open-Source-Software. Hier ist der Link https://www.audacityteam.org/

Überprüfen Sie den folgenden Link, um zu sehen, ob Sie etwas zur Verbesserung Ihres Audiomaterials tun können. Https://www.wikihow.com/Get-Higher-Audio-Quality-when-Using-Audacity

Bitte zitieren Sie die wesentlichen Teile der Antwort aus den Referenzlinks, da die Antwort ungültig werden kann, wenn sich die verlinkten Seiten ändern. DavidPostill vor 5 Jahren 0