Vergleicht eine wirtschaftlich realisierbare öffentlich verfügbare Software Audiodateien, um festzustellen, ob sie Dupes sind?

664
jcolebrand

Im Einklang mit dieser Frage https://unix.stackexchange.com/questions/3037/is-there-an-easy-way-to-re-place-duplicate-fileswith-hardlinks gibt es eine Software, die automatisch eine parsen wird Bibliothek meiner Songs und finden Sie diejenigen, die wirklich Duplikate sind, die man beseitigen kann? Hier ist ein Beispiel:

Mein Bruder war früher ein großer Fan von Remixing-CDs. Er nahm alle seine Lieblingstitel und legte sie auf eins. Dann benutzte er meinen Computer, um sie einzulesen. Also habe ich jetzt 6 Kopien von Californication auf meiner Festplatte, und sie unterscheiden sich insgesamt um einige Bytes. Ich habe Hunderte von Songs in meiner Bibliothek. Ich möchte sie auf Unikate reduzieren. Sie haben nicht alle die richtigen ID3-Tags, daher ist es genauso schwierig Untitled(74).mp3wie herauszufinden .californication.mp3whowrotethis.mp3

Ich möchte NICHT, dass ein Konzertalbum und ein Studio-Album-Rip als gleich angesehen werden (wenn ich nur Künstler / Titel zusammenbringe, würde ich mit diesem Szenario enden, was für mich nicht funktioniert).

Ich benutze Windows (Wähle deine Plattform) und werde später im Jahr eine OSX-Box bekommen. Ich werde Linux laufen lassen, wenn es darum geht, es zu organisieren. Ich habe ungeschützte AAC- und MP3-Dateien. Bonuspunkte für das Durcheinander mit WAV oder MIDI und Bonuspunkte für die Konvertierung von diesen in MP3 (ich kann Audacity und LAME später verwenden, um sie zu konvertieren, wenn ich weiß, dass sie übereinstimmen, oder frühzeitig zu konvertieren, wenn dies die Dinge einfacher macht).

Gibt es Vorschläge oder muss ich Programmierer oder SO aufrufen und eine Liste von Anforderungen erstellen, um diese Dinge zu vergleichen und die Software selbst zu schreiben?

2
"Bonuspunkte" bedeutet, dass ich jedem, der dies kann, eine Prämie anbieten kann :-) Josh vor 13 Jahren 0
Nun, ich habe hier keine Punkte, um eine Belohnung anzubieten, denke ich nicht, aber wenn Sie weitermachen wollen: "P" jcolebrand vor 13 Jahren 0
Ich möchte auch die Antwort. Wenn Sie keine bekommen, werde ich Ihnen eine Prämie anbieten. Josh vor 13 Jahren 0
Programmierer und StackOverflow sind für Programmier- und Programmierprobleme und -tools gedacht, kein Ort, um Softwareentwicklung anzufordern. Wenn Sie eine solche Anfrage gestellt haben, wird sie in kurzer Zeit entfernt. David Ma vor 13 Jahren 0
@David ~ Ich weiß ziemlich viel über das Netzwerk. Ich schätze Ihre gesammelten 2k-Wiederholungen, aber ich bin ein Mod in einem Netzwerk und ich weiß alles über SO und Programmierer und über 10k Wiederholungen im Netzwerk. Sehen Sie eines meiner Profile. Aber ich schätze die Besorgnis. Es ist nur so, dass ich weiß, wie man Fragen formuliert, wie "Wie kann man eine Wellenform für einen MP3-codierten Song so verallgemeinern, dass ich ihn [genetischen Code] mit ähnlichen Werken vergleichen kann, um Ähnlichkeit zu ermitteln?" Das ist eine sehr zu beantwortende Frage. Mögliche Antworten sind WAV oder reencodieren alle Songs mit 64 kbps und bleiben bei Mod8-Frames erhalten. jcolebrand vor 13 Jahren 1

1 Antwort auf die Frage

2
David Ma

Es ist eigentlich ein ziemlich schwieriges algorithmisches Problem, aber zum Glück wurde es bereits geschrieben. MusicBrainz Picard identifiziert Songs anhand des Sounds und weist ihnen einen Namen zu, der auf einer großen Datenbank mit Audio-Fingerabdrücken basiert.

Wenn ein Duplikat identifiziert wird, erhält das Lied denselben Namen wie das Original, wobei eine Nummer an das Ende angehängt wird. Sie können also Duplikate leicht löschen, indem Sie alle Songs entfernen, an deren Ende eine Nummer angehängt ist. Ich habe Picard schon einige Jahre nicht verwendet, daher wurde möglicherweise eine doppelte Entfernung hinzugefügt.

MusicBrainz Picard http://musicbrainz.org/doc/PicardTagger

Ich hatte dieses Tool etwas vergessen, aber ich erinnere mich, dass es funktionierte, als ich es per Fingerabdruck in eine Datenbank abarbeitete, und ich habe scheinbar eine hohe Zahl, die anscheinend keinen guten Fingerabdruck hat. ~ Das algorithmisch schwierige Problem sehe ich als Herausforderung. Ich muss etwas über das Analysieren von MP3 und das Finden einer einzigartigen Wellenform lernen, die ich verwenden kann, um einen Fingerabdruck gegen eine Reihe von Bitranges zu erstellen, aber das kann für das Lernen ziemlich gut sein. Ansonsten sehe ich es als einen Weg, um zu lernen, wie man etwas Nützliches für die Welt als Ganzes tun kann. Ich sehe jetzt auch andere mögliche Ergebnisse. jcolebrand vor 13 Jahren 0