Ich möchte den Inhalt dieser (TIFF-) Dateien durchsuchen können.
Im Folgenden werden zwei Lösungen für Windows und Linux vorgestellt.
Windows-Lösung
Sie können den TIFF-IFilter installieren .
Mit dem Windows® TIFF-IFilter können Sie auf der Grundlage des Textinhalts nach TIFF-Dokumenten suchen. Wenn der TIFF-IFilter von Windows geladen ist, führt er eine optische Zeichenerkennung (OCR) von TIFF-Bildern durch und stellt dem Aufrufer den erkannten Text zur Verfügung, um den Suchindex zu erstellen.
Windows TIFF IFilter konzentriert sich auf textbasierte Dokumente. Dies bedeutet, dass die Suche erfolgreicher bei Dokumenten ist, die eindeutig identifizierbaren Text enthalten (z. B. schwarzer Text auf weißem Hintergrund), und weniger erfolgreich bei Dokumenten, die gemischten Inhalt enthalten (z. B. künstlerischer Text oder Text innerhalb von Bildern). Darüber hinaus können Bilder mit niedriger Qualität und gemischte Sprachen die OCR-Verarbeitung beeinträchtigen und folglich die Qualität der Suchergebnisse beeinträchtigen.
Windows TIFF-IFilter unterstützt alle TIFF-Dokumente, die den Spezifikationen von Adobe TIFF Version 6.0 entsprechen, und enthält die häufigsten Komprimierungen (z. B. LZW, JPG, CCITT v4, CCITT v6 und unkomprimiert).
Der Quelllink enthält detaillierte Installationsanweisungen.
Hinweis:
- Der Windows-TIFF-Filter ist in Windows 7 Starter oder Windows 7 Home Basic nicht verfügbar (entsprechend Tipp: Durchsuchen der Tiff-Dateien in Windows 7 durch Aktivieren der Tiff-Indexierung )
Quell- TIFF-IFilter-Installations- und Betriebshandbuch für Windows
Linux-Lösung
Konvertieren Sie die TIFF-Dateien in Textdateien oder PDF-Dateien.
Der Link unten zeigt, wie mit einem OCR-Zwischenschritt (der Tesseract verwendet) in PDF konvertiert wird.
Der Zwischenschritt erzeugt eine Textdatei.
Dies bedeutet, dass die PDF-Datei aus Text und nicht aus Bildern erstellt wird.
Durchsuchen Sie die Textdateien oder die PDF-Dateien nach Ihren Wünschen.
Informationen zum Konvertieren finden Sie unter Scannen und Bearbeiten von Text mit OCR .