Grundlegendes zu den OCR-Optionen in Adobe Acrobat: "Durchsuchbares Bild", "Durchsuchbares Bild (genau)" und "Bearbeitbarer Text und Bilder"

3253
Kenny LJ

In Adobe Acrobat (ich verwende Pro DC, wenn es darauf ankommt) gibt es drei Optionen für die OCR:

  1. "Durchsuchbares Bild".
  2. "Durchsuchbares Bild (genau)".
  3. "Bearbeitbarer Text und Bilder".

enter image description here

Was sind die Unterschiede zwischen diesen drei Optionen?

Was bestimmt insbesondere die Größe der Ausgabedatei? Im Moment habe ich sowohl die 1. als auch die 3. Option ausgeführt und es scheint, dass eine größer und manchmal die andere größer ist (und die Unterschiede können erheblich sein).

Was ist (wenn vorhanden) der Kompromiss zwischen Qualität, Dateigröße und Geschwindigkeit der OCR-Verarbeitung?

2
Das für Sie interessante Thema befindet sich am Ende des Handbuchs unter der Überschrift [Erkennen von Text in gescannten Dokumenten] (https://helpx.adobe.com/acrobat/using/scan-documents-pdf.html). Es gibt auch dieses Forum [Seite] (https://forums.adobe.com/thread/1133603) spike_66 vor 6 Jahren 0

1 Antwort auf die Frage

1
harrymc

Der Adobe-Hilfe-Artikel Scannen eines Papierdokuments in eine PDF-Datei im Dialogfeld Text erkennen - Allgemeine Einstellungen definiert die Scanmodi als:

Durchsuchbares Bild

Stellt sicher, dass Text durchsuchbar und auswählbar ist. Diese Option behält das Originalbild bei, aktualisiert es bei Bedarf und platziert eine unsichtbare Textebene darüber. Die Auswahl für Downsample Images in diesem Dialogfeld bestimmt, ob und in welchem ​​Umfang das Image heruntergerechnet wird.

Durchsuchbares Bild (genau)

Stellt sicher, dass Text durchsuchbar und auswählbar ist. Diese Option behält das Originalbild bei und platziert eine unsichtbare Textebene darüber. Empfohlen für Fälle, in denen eine maximale Genauigkeit des Originalbildes erforderlich ist.

Bearbeitbarer Text & Bilder

Synthetisiert eine neue benutzerdefinierte Schriftart, die dem Original nahe kommt und den Seitenhintergrund mithilfe einer Kopie mit niedriger Auflösung beibehält.

Downsample nach

Verringert die Anzahl der Pixel in Farbe, Graustufen und Schwarzweißbildern, nachdem die OCR abgeschlossen ist. Wählen Sie den anzuwendenden Downsampling-Grad aus. Optionen mit höheren Nummern führen zu einer geringeren Abtastrate und erzeugen PDFs mit höherer Auflösung.

Ich werde die Auswirkung dieser Optionen auf die Größe der Ausgabedatei analysieren.

Alle Optionen behalten das Bild bei, das wahrscheinlich ein großes Objekt ist.

Durchsuchbares Bild dreht das Bild, wodurch es möglicherweise in Abhängigkeit von der intern von Adobe verwendeten Methode zum Umcodieren der Bilder größer oder kleiner wird

Downsample To kann die Bildauflösung und damit die Bildgröße reduzieren, aber der gewonnene (oder verlorene) Speicherplatz hängt von der von Adobe intern verwendeten Nachabtastungsmethode ab.

Bearbeitbarer Text & Bilder synthetisiert eine neue Schriftart, die dann in die PDF-Datei aufgenommen wird und der Ausgabegröße mehrere Dutzend K-Bytes hinzufügt.

Alles in allem gibt es keine eindeutige Methode zum Erstellen der kleinsten PDF-Datei. Die Menge (oder Verlust), die gewonnen wird (oder verloren), hängt davon ab, ob die Bilder OCR-verarbeitet werden und wie effizient sie von Adobe erneut komprimiert werden können.

Wenn Sie Speicherplatz sparen möchten, würde ich vorschlagen, bearbeitbaren Text und Bilder zu verwenden. Wenn Sie jedoch in diesem Adobe Acrobat-Artikel beschrieben werden, geben Sie in den Einstellungen die Option "Verfügbare Systemschriftart verwenden" an, um die benutzerdefinierte Schriftart zu vermeiden. Sie können die Bilder auch löschen, wenn der OCR-Text ausreicht.