So entfernen Sie unerwünschte Inhalte aus heruntergeladenen Untertiteln?

444
user598527

Automatisch generierte YouTube-Untertitel enthalten Zeitstempel für jedes Wort und andere Inhalte, die die Lesbarkeit beeinträchtigen:

00:00:30.230 --> 00:00:33.900 align:start position:19% you<00:00:31.230><c> think</c><c.colorE5E5E5><00:00:31.470><c> from</c><00:00:31.650><c> my</c><00:00:31.740><c> calm</c><00:00:31.980><c> demeanor</c><00:00:32.010><c> that</c></c><c.colorCCCCCC><00:00:32.430><c> I</c></c>   00:00:32.580 --> 00:00:36.180 align:start position:19% haven't<c.colorE5E5E5><00:00:32.760><c> got</c><00:00:32.910><c> a</c><00:00:32.940><c> care</c><00:00:33.150><c> in</c><00:00:33.210><c> the</c><00:00:33.330><c> world</c><00:00:33.420><c> that</c></c>  00:00:33.900 --> 00:00:38.160 align:start position:19% you'd<00:00:34.019><c> be</c><00:00:34.140><c> wrong</c><00:00:34.410><c> you</c><00:00:34.680><c> see</c><c.colorE5E5E5><00:00:35.000><c> hidden</c><00:00:36.000><c> within</c></c> 

Wie kann ich nur mit vernünftiger Formatierung Sprache speichern? Sprachorientierte Videos einiger Benutzer werden in Stunden anstatt in Minuten gemessen, und durch Lesen könnte ich diese "One-Man-Talkshows" in Bruchteilen der Zeit beenden.

0

1 Antwort auf die Frage

1

Mach Folgendes:

  1. Erstellen Sie eine Kopie der Datei.
  2. Öffnen Sie die Datei in einem Texteditor, der über Regex-basierte Funktionen zum Suchen und Ersetzen verfügt, z. B. Notepad ++ oder Visual Studio Code .
  3. Rufen Sie die Such- und Ersetzungsfunktion auf ( Ctrl+ Hin den Beispielen, die ich gegeben habe), suchen Sie den folgenden regulären Ausdruck und ersetzen Sie ihn durch nichts:

    <.*?> 

    Vergessen Sie nicht, den Regex-Modus zu aktivieren. In Notepad ++ müssen Sie das Optionsfeld "Reguläre Ausdrücke" auswählen, und in Visual Studio-Code müssen Sie auf die Schaltfläche mit der Aufschrift ". *" Klicken (oder Alt+ drücken R).

  4. Ersetzen Sie alle Instanzen.

Hier ist das Ergebnis von Visual Studio Code:

00:00:30.230 --> 00:00:33.900 align:start position:19% you think from my calm demeanor that I  00:00:32.580 --> 00:00:36.180 align:start position:19% haven't got a care in the world that  00:00:33.900 --> 00:00:38.160 align:start position:19% you'd be wrong you see hidden within 
Videos mit offizieller Unterstützung für Untertitel (z. B. https://www.youtube.com/watch?v=Ye8mB6VsUHw) verwenden dieses Layout bereits. Ich würde es vorziehen, alle Zeitstempel und Positionsmarkierungen zu entfernen (`align: start position:`). und überflüssige Leitungsbrüche. user598527 vor 7 Jahren 0
Ich kann Ihnen wahrscheinlich zusätzliche auf Regex basierende Lösungen geben, aber pro 80/20-Regel hilft es Ihnen nicht so sehr, wie diese. Zu diesem Zeitpunkt ist es am einfachsten, den resultierenden Text von Regex, den ich Ihnen gegeben habe, in [Subtitle Edit] (http://nikse.dk/subtitleedit/) zu laden und zu lesen. vor 7 Jahren 1
Ich weiß, dass superuser.com kein "kostenloser Scripting-Service" ist, aber ich wollte auch wissen, ob es in youtube-dl einen integrierten Befehl gibt. user598527 vor 7 Jahren 0