Extrahieren Sie PDF-Daten mit kategorisierten Anmerkungen

438
bman

Gibt es bereits vorhandene Tools zum Extrahieren von Daten aus PDF-Dateien mit dieser Methode? Sagen wir, ich habe 3 Kategorien

  1. Bild - Dies ist eine Rechteck-Annotation, die den bestimmten Bereich beschneiden wird, in dem die Annotation platziert wird
  2. Titel - Dies ist ein weiteres Rechteck, das den Text innerhalb dieses Rechtecks ​​nur annimmt. Bei einem Bild wird es durch OCR in Text umgewandelt
  3. Autor - dasselbe mit # 2, aber jetzt dem Autor zugeordnet

Dann wird ein Dateiformat erzeugt, sagen wir eine CSV:

ImageURL,Title,Author 

Diese Kategorien (Felder) sollten auch zu Datensätzen gruppiert werden, so dass pro Zeile 1 Datensatz vorhanden ist.

Wenn es kein vorhandenes Werkzeug dafür gibt, welche Werkzeuge oder Programmier-API / SDK könnten mir dabei helfen, eines zu erstellen?

1

0 Antworten auf die Frage