Kann ich Acrobat Professional zwingen, das auswählbare OCR-Bild durch Text zu ersetzen?

2155
rumtscho

Ich habe ein Buch, das ich auf dem Bildschirm lesen möchte. Es wird mit 200 dpi monochrom gescannt (ich weiß immer noch nicht, was im Scannertreiber schief gelaufen ist, ich erinnere mich, dass ich Graustufen eingestellt habe, aber ich kann mir nicht die Zeit für das erneute Scannen leisten), daher ist es schwer zu lesen. Ich habe es mit Acrobat Acrobat Pro OCR gemacht, und es lief einigermaßen gut. Das Ergebnis ist jedoch entweder "Searchable Image" oder "Clearscan". Ich mag die Tatsache, dass das Layout beibehalten wird, aber das Problem ist, dass der Text so angezeigt wird, wie er gescannt wurde. Daher ist es schwierig, ihn auf dem Bildschirm zu lesen. Das gesamte Buch belegt dabei 70 MB.

Hier sehen Sie, wie der bereits erkannte Text aussieht:

Kann ich Acrobat Professional zwingen, das auswählbare OCR-Bild durch Text zu ersetzen?

Ich habe andere OCR-Programme ausprobiert, aber neben der 100-prozentigen Prozessorzeit und Speicherkapazität von 2 Minuten pro Doppelseite erkannten alle den Text und ließen die Zahlen vollständig aus. Das Layout und die Typografie interessieren mich nicht so sehr, aber die Zahlen sind wichtig (ich brauche die Textbeschriftungen in den Bildern nicht als OCR zu verwenden). Und ich denke, wenn ASCII für Text und Bilder für die Zahlen verwendet wird, sollte die Größe erheblich sinken.

Gibt es also eine Möglichkeit, die Bilder des Textes abzugraben und die OCR-Version zum Lesen zu verwenden, während die Figuren an ihrer Stelle bleiben? Das Endergebnis wäre zwar eine PDF-Datei, aber ich bin auch für andere Formate offen. Ich weiß, dass ich dies manuell tun könnte, indem Sie den OCR-Text in Word einfügen und Screenshots der Bilder erstellen. Dies ist jedoch zu viel Arbeit für 520 Seiten.

2

2 Antworten auf die Frage

3
Kees

In Omnipage 16, 17, 18 können Sie (besseres Layout):

  • Zonentypen automatisch oder von Hand auswählen
  • Stellen Sie den ausgewählten Zonentyp, Text, Bild, Tabelle ein
  • Seiten drehen
  • Doppelseiten in Einzelseiten umwandeln
  • Export in PDF mit und ohne gescanntes Originalbild (klarer, übersichtlicher)

Das Programm macht auf Anfrage (bessere Anerkennung).

  • Seiten begradigen
  • Linien begradigen

Omnipage 17, 18 glättet gekrümmte Seiten, falsche Winkel von Digitalkamerabildern (Nahaufnahmen)

ABBYY 8,9, 10 haben dieselben Funktionen, liefern jedoch weniger Ergebnisse für Digitalkamerabilder.

ABBYY 10 verfügt über einen hervorragenden "On Screen Reader". Damit erkennen Sie Textteile auf Ihrem Monitor. Oder wählen Sie Text von Online-Büchern wie Google Books oder sribd dot com aus. Drehen Sie den Monitor vertikal und stellen Sie sicher, dass der Text die maximale Größe hat.

Infix dient zum Bereinigen erkannter PDFs, die als "Text mit Bildern" exportiert werden. Einfache Möglichkeit, einen falsch ausgewählten Teil der Seite ohne Bild usw. zu löschen. Außerdem können Sie Seiten zu einer PDF-Datei hinzufügen oder Seiten löschen.

Able2Abstract eignet sich hervorragend zum Erkennen von Tabellen. PDF2XL macht das auch.

Scan Tailor ist ein etwas unfreundlicher Weg, aber kostenlos, um nur den schwarzen Text eines Scans zu erhalten. Wenn Teile einer Seite fehlen, stellen Sie die einzelnen Seitengrößen erneut ein.

Mit Abbyy ist es auch möglich, den schwarzen Text und die Bilder zu erhalten. Hier enthalten die gespeicherten Arbeitsdateien B + W-Seiten. Sie können diese an anderer Stelle kopieren, die Tumbfiles oder Metadaten löschen und die TIFF-Dateien in Multitiff- oder PDF-Dateien einfügen. Diese Datei ist größer als ein anerkanntes PDF.

Mit Photoshop und Paint Shop Pro können Sie das Bild von gescanntem Text, einzelner Seite oder Stapelmodus ändern.

Paperport (nicht perfekt) hilft beim Scannen, macht den Text beim Scannen schwarzer, korrigiert Text usw. nach dem Scannen, funktioniert jedoch nur für einzelne Seiten und fügt einzelne Seiten in 1 PDF-Datei ein.

Buchmacher ist teuer, noch älter, behebt einige Seitenkurven, geschwärzte Seiten können gelöscht werden. Die Testversion hat Einschränkungen, aber irgendwo kann etwas versteckt werden, Seite für Seite.

Das Ändern von Parametern der Scannersoftware kann zu besseren Ergebnissen führen.

Das Fotografieren eines 500-Seiten-Buches würde 1 Stunde dauern.

  • Stativ verwenden
  • ISO 100 oder 200
  • Manueller Weißabgleich mit weißem Buchbuch. (Oder anderes Papier, das "mehr weiß" ist)
  • gutes Licht, aber kein direktes Sonnenlicht
  • Schauen Sie sich die großen Schatten zwischen den Seiten an, drehen Sie das Buch nach Bedarf um
  • mache ein paar Tests
  • slr verwende einen höheren f-stop wie 8 oder 11 für eine bessere schärfentiefe
0
noami

Das Beste, was ich gefunden habe, ist das, aber ich würde gerne eine bessere Lösung mit Acrobat hören.

Nach der OCR können Sie den Text auswählen und dann die Schriftart ändern:

Klicken Sie mit der rechten Maustaste auf die Auswahl und wählen Sie Eigenschaften aus

Gehen Sie zur Registerkarte "Text" und wählen Sie eine Schrift und Schriftgröße aus.

Leider werden dadurch auch das Layout, die Position der Buchstaben sowie der Zeilenabstand in der Regel beeinträchtigt.

Eine andere Möglichkeit besteht darin, den gesamten Text in einen Texteditor (z. B. Word oder Openoffice) zu kopieren und dann den gesamten Text vollständig neu zu ...

Diese Frage ist wirklich verwirrend. Ich habe gelesen, dass das Ziel darin bestand, ein kleineres Dokument mit Dateigröße zu erstellen, das beliebige (Nicht-Text-) Bilder plus den OCR-Text als Text enthält, der so nahe wie möglich am ursprünglichen Layout liegt. Das Problem schien zu sein, dass die OCR-Software dazu nicht in der Lage war und die Bilder ignorierte. Das Ergebnis waren also zwei Dateien: der Originalscan des gesamten Seiteninhalts, alle als Bild, und ein Dokument, bei dem nur der Text in bearbeitbaren Text umgewandelt wurde. Hast du die Frage anders interpretiert? fixer1234 vor 7 Jahren 0