Markierten gescannten Text / Bilder aus dem PDF extrahieren

399
user921416

Ich brauche ein Werkzeug oder eine Problemumgehung, um hervorgehobene Bereiche aus einer PDF-Datei zu extrahieren. Ich arbeite mit einer gescannten PDF-Datei, also ohne Texterkennung, und ich muss auch hervorgehobene Bilder extrahieren.

Ich habe Zotelo, Mendeley ausprobiert und die Druckzusammenfassung aus dem Printpdf-Dialog (Strg + P) ausgewählt, aber sie funktionieren nur mit hervorgehobenem Text.

0

1 Antwort auf die Frage

0
mapto

Da Sie mit einem gescannten PDF arbeiten, enthält das PDF selbst komprimierte Bilddaten. Sie enthält den Text nicht als solchen. Daher muss Ihre Lösung:

  1. Extrahieren Sie das Bild aus dem PDF in ein Bildformat
  2. Parsen Sie den Text möglicherweise mit einem speziellen OCR-Tool

Aus Ihrer Frage ist nicht klar, welches Betriebssystem und welche Werkzeuge Ihnen zur Verfügung stehen, und auch nicht, was Ihre Skriptfähigkeiten sind. Aus diesen Gründen gibt es jetzt eine generische Antwort, und dieser Prozess ist ziemlich automatisierbar (vorbehaltlich Änderungen in den PDF-Dateien), wenn Sie ihn mehrmals wiederholen müssen.

Wenn Sie dies von Hand tun, könnte der erste Schritt so einfach sein wie das Drucken des Bildschirms und das mögliche Zuschneiden. Alternativ können Sie ein PDF-Dokument in eine Bilddatei konvertieren . Dann könnten Sie nach Ihren Bedürfnissen z . B. mit Gimp beschneiden .

Für den zweiten Schritt können Sie eine beliebige OCR-Software verwenden, z . B. Tesseract .