TIFF in TEXT oder Indexieren von TIFF-Dateien basierend auf Textinhalt

787
callasabra

Ich habe ein paar tausend Tiff-Dateien, jede ist ein mehrseitiges Textdokument. Ich möchte in der Lage sein, den Inhalt dieser Dateien zu durchsuchen und sie anhand bestimmter Informationen, wie Name, Stadt, Landkreis, Bundesland, Straße, Postleitzahl usw., zu organisieren / indizieren. Das Ziel besteht darin, die relevanten Dateien anhand von zu finden Suchbegriffe Wenn Sie beispielsweise nach "Doyle, Bob" UND "Orange County" suchen, werden alle Dateien abgerufen, die diese Begriffe enthalten. Ich habe Windows- und Linux-PCs zur Verfügung, aber es muss nicht plattformübergreifend sein.

Was schlagen Sie vor?

1

1 Antwort auf die Frage

1
DavidPostill

Ich möchte den Inhalt dieser (TIFF-) Dateien durchsuchen können.

Im Folgenden werden zwei Lösungen für Windows und Linux vorgestellt.


Windows-Lösung

Sie können den TIFF-IFilter installieren .

Mit dem Windows® TIFF-IFilter können Sie auf der Grundlage des Textinhalts nach TIFF-Dokumenten suchen. Wenn der TIFF-IFilter von Windows geladen ist, führt er eine optische Zeichenerkennung (OCR) von TIFF-Bildern durch und stellt dem Aufrufer den erkannten Text zur Verfügung, um den Suchindex zu erstellen.

Windows TIFF IFilter konzentriert sich auf textbasierte Dokumente. Dies bedeutet, dass die Suche erfolgreicher bei Dokumenten ist, die eindeutig identifizierbaren Text enthalten (z. B. schwarzer Text auf weißem Hintergrund), und weniger erfolgreich bei Dokumenten, die gemischten Inhalt enthalten (z. B. künstlerischer Text oder Text innerhalb von Bildern). Darüber hinaus können Bilder mit niedriger Qualität und gemischte Sprachen die OCR-Verarbeitung beeinträchtigen und folglich die Qualität der Suchergebnisse beeinträchtigen.

Windows TIFF-IFilter unterstützt alle TIFF-Dokumente, die den Spezifikationen von Adobe TIFF Version 6.0 entsprechen, und enthält die häufigsten Komprimierungen (z. B. LZW, JPG, CCITT v4, CCITT v6 und unkomprimiert).

Der Quelllink enthält detaillierte Installationsanweisungen.

Hinweis:

Quell- TIFF-IFilter-Installations- und Betriebshandbuch für Windows


Linux-Lösung

  1. Konvertieren Sie die TIFF-Dateien in Textdateien oder PDF-Dateien.

    • Der Link unten zeigt, wie mit einem OCR-Zwischenschritt (der Tesseract verwendet) in PDF konvertiert wird.

    • Der Zwischenschritt erzeugt eine Textdatei.

    • Dies bedeutet, dass die PDF-Datei aus Text und nicht aus Bildern erstellt wird.

  2. Durchsuchen Sie die Textdateien oder die PDF-Dateien nach Ihren Wünschen.

Informationen zum Konvertieren finden Sie unter Scannen und Bearbeiten von Text mit OCR .

PDF kann Bilder enthalten, und normalerweise enthält TIFF, das in PDF konvertiert wurde, nur das Bild von Dateien (Nicht-OCR-Konverter). Giacomo Catenazzi vor 8 Jahren 0
@GiacomoCatenazzi Der Link, den ich zitiert habe, löst dieses Problem, indem ein OCR-Zwischenschritt mit Tesseract verwendet wird. Ich kläre die Antwort. DavidPostill vor 8 Jahren 0