TIFF in TEXT oder Indexieren von TIFF-Dateien basierend auf Textinhalt

Question

TIFF in TEXT oder Indexieren von TIFF-Dateien basierend auf Textinhalt

787

callasabra 2016-02-15 в 15:15

Ich habe ein paar tausend Tiff-Dateien, jede ist ein mehrseitiges Textdokument. Ich möchte in der Lage sein, den Inhalt dieser Dateien zu durchsuchen und sie anhand bestimmter Informationen, wie Name, Stadt, Landkreis, Bundesland, Straße, Postleitzahl usw., zu organisieren / indizieren. Das Ziel besteht darin, die relevanten Dateien anhand von zu finden Suchbegriffe Wenn Sie beispielsweise nach "Doyle, Bob" UND "Orange County" suchen, werden alle Dateien abgerufen, die diese Begriffe enthalten. Ich habe Windows- und Linux-PCs zur Verfügung, aber es muss nicht plattformübergreifend sein.

Was schlagen Sie vor?

1

1 Antwort auf die Frage

1

Accepted Answer · 2016-02-15 15:24:25

Ich möchte den Inhalt dieser (TIFF-) Dateien durchsuchen können.

Im Folgenden werden zwei Lösungen für Windows und Linux vorgestellt.

Windows-Lösung

Sie können den TIFF-IFilter installieren .

Mit dem Windows® TIFF-IFilter können Sie auf der Grundlage des Textinhalts nach TIFF-Dokumenten suchen. Wenn der TIFF-IFilter von Windows geladen ist, führt er eine optische Zeichenerkennung (OCR) von TIFF-Bildern durch und stellt dem Aufrufer den erkannten Text zur Verfügung, um den Suchindex zu erstellen.

Windows TIFF IFilter konzentriert sich auf textbasierte Dokumente. Dies bedeutet, dass die Suche erfolgreicher bei Dokumenten ist, die eindeutig identifizierbaren Text enthalten (z. B. schwarzer Text auf weißem Hintergrund), und weniger erfolgreich bei Dokumenten, die gemischten Inhalt enthalten (z. B. künstlerischer Text oder Text innerhalb von Bildern). Darüber hinaus können Bilder mit niedriger Qualität und gemischte Sprachen die OCR-Verarbeitung beeinträchtigen und folglich die Qualität der Suchergebnisse beeinträchtigen.

Windows TIFF-IFilter unterstützt alle TIFF-Dokumente, die den Spezifikationen von Adobe TIFF Version 6.0 entsprechen, und enthält die häufigsten Komprimierungen (z. B. LZW, JPG, CCITT v4, CCITT v6 und unkomprimiert).

Der Quelllink enthält detaillierte Installationsanweisungen.

Hinweis:

Der Windows-TIFF-Filter ist in Windows 7 Starter oder Windows 7 Home Basic nicht verfügbar (entsprechend Tipp: Durchsuchen der Tiff-Dateien in Windows 7 durch Aktivieren der Tiff-Indexierung )

Quell- TIFF-IFilter-Installations- und Betriebshandbuch für Windows

Linux-Lösung

Konvertieren Sie die TIFF-Dateien in Textdateien oder PDF-Dateien.
- Der Link unten zeigt, wie mit einem OCR-Zwischenschritt (der Tesseract verwendet) in PDF konvertiert wird.
- Der Zwischenschritt erzeugt eine Textdatei.
- Dies bedeutet, dass die PDF-Datei aus Text und nicht aus Bildern erstellt wird.
Durchsuchen Sie die Textdateien oder die PDF-Dateien nach Ihren Wünschen.

Informationen zum Konvertieren finden Sie unter Scannen und Bearbeiten von Text mit OCR .

TIFF in TEXT oder Indexieren von TIFF-Dateien basierend auf Textinhalt

1 Antwort auf die Frage

Ich möchte den Inhalt dieser (TIFF-) Dateien durchsuchen können.

Windows-Lösung

Linux-Lösung

Verwandte Probleme