Wie extrahiere ich Text mit OCR aus einem PDF unter Linux?

Question

Wie extrahiere ich Text mit OCR aus einem PDF unter Linux?

57185

hsribei 2009-08-23 в 22:34

Wie extrahiere ich Text aus einer PDF-Datei, die nicht mit einem Index erstellt wurde? Es ist alles Text, aber ich kann nichts suchen oder auswählen. Ich lasse Kubuntu laufen und Okular hat diese Funktion nicht.

40

Siehe auch: https://softwarerecs.stackexchange.com/q/3412/26815 Keelan vor 6 Jahren 0

9 Antworten auf die Frage

25

13

nagul 2009-08-23 в 22:44

Prüfen Sie, ob pdftotext für Sie funktioniert. Wenn es nicht auf Ihrem Computer installiert ist, müssen Sie das Paket poppler-utils installieren

sudo apt-get install poppler-utils

Möglicherweise finden Sie auch das pdf-Toolkit zur Verwendung.

Eine vollständige Liste der PDF-Software finden Sie hier auf Wikipedia.

Edit: Da Sie OCR-Funktionen benötigen, müssen Sie einen anderen Ansatz ausprobieren. (dh ich konnte keinen linux pdf2text converter finden, der OCR ausführt).

Konvertieren Sie das PDF in ein Bild
Scannen Sie das Bild mit OCR-Tools in Textform

PDF in Bild konvertieren

gs: Der folgende Befehl sollte mehrseitige PDF-Dateien in einzelne TIFF-Dateien konvertieren.

gs -SDEVICE = tiffg4 -r600x600 -sPAPERSIZE = Buchstabe -sOutputFile = Dateiname_% 04d.tif -dNOPAUSE -dBATCH - Dateiname
ImageMagik-Dienstprogramme : Auf der SuperUser-Site gibt es weitere Fragen zur Verwendung von ImageMagik, die Sie möglicherweise verwenden, um Sie bei der Konvertierung zu unterstützen.

konvertiere foo.pdf foo.png

Konvertieren Sie das Bild mit OCR in Text

Entnommen aus der Wikipedia- Liste der OCR-Software

Funktioniert dieses Programm auch für handschriftliche Textdokumente? Ivo Flipse vor 15 Jahren 2

Nein, ich glaube nicht, dass es OCR-Funktionen hat. Es kann nur den in das PDF eingebetteten Text extrahieren. Manpage: http://linux.die.net/man/1/pdftotext nagul vor 15 Jahren 1

Ja, dies funktioniert für PDF-Dokumente, die bereits mit eingebettetem Text geliefert werden. Mein Fall ist genau einer, in dem es nicht der Fall ist. hsribei vor 15 Jahren 0

@ obvio171 Es wurde die beste Option hinzugefügt, die ich finden konnte, damit OCR in Ihrem Fall funktioniert. nagul vor 15 Jahren 1

11

Russ 2011-07-08 в 15:43

Google Text & Tabellen werden jetzt OCR verwenden, um Ihre hochgeladene Bild / PDF - Dokumente in Text zu konvertieren. Ich hatte guten Erfolg damit.

Sie verwenden das OCR-System, das für das gigantische Google Books- Projekt verwendet wird.

Es ist jedoch zu beachten, dass nur PDFs mit einer Größe von 2 MB zur Verarbeitung akzeptiert werden.

Update
1. Um es auszuprobieren, laden Sie ein <2 MB großes PDF-Dokument hoch, um Dokumente in einem Webbrowser zu googeln.
2. Klicken Sie mit der rechten Maustaste auf das hochgeladene Dokument und klicken Sie auf "Mit Google Docs öffnen".
... Google Text & Tabellen wird in Text konvertiert und in eine neue Datei mit demselben Namen, aber Google Text & Tabellen in demselben Ordner ausgegeben.

Die Antwort ist nicht wirklich Ubuntu-spezifisch, aber ich möchte mich wirklich bei Ihnen bedanken: BRILLIANT-Lösung! :) Pitto vor 12 Jahren 0

wow, danke für den hack. sehr hilfreich Jossef Harush vor 7 Jahren 0

Das war wirklich hilfreich :) Ich habe gestern eine 50 MB-Datei hochgeladen und es hat funktioniert. Sieht aus, als hätten sie das Größenlimit erhöht. Gaurav vor 6 Jahren 0

2

ryanjdillon 2013-10-16 в 11:16

Geza Kovacs hat ein Ubuntu-Paket erstellt, das im Grunde ein Skript ist, hocr2pdfdas Jukka vorschlägt, das Setup jedoch etwas schneller macht.

Aus Gezas Ubuntu- Forum mit Details zum Paket ...

Repository hinzufügen und in Ubuntu installieren

sudo add-apt-repository ppa:gezakovacs/pdfocr sudo apt-get update sudo apt-get install pdfocr

Ocr für eine Datei ausführen

pdfocr -i input.pdf -o output.pdf

GitHub-Repository für den Code https://github.com/gkovacs/pdfocr/

1

scruss 2012-04-29 в 13:30

PDFBeads works well for me. This thread “Convert Scanned Images to a Single PDF File” got me up and running. For a b&w book scan, you need to:

Create an image for every page of the PDF; either of the gs examples above should work
Generate hOCR output for each page; I used tesseract (but note that Cuneiform seems to work better).
Move the images and the hOCR files to a new folder; the filenames must correspond, so file001.tif needs file001.html, file002.tif file002.html, etc.
In the new folder, run
```
pdfbeads * > ../Output.pdf 
```

This will put the collated, OCR'd PDF in the parent directory.

1

tolima 2013-11-22 в 07:42

ein anderes Skript mit Tesseract:

#!/bin/bash # Run OCR on a multi-page PDF file and create a txt with the # extracted text in hidden layer. Requires tesseract, gs. # Usage: ./pdf2ocr.sh input.pdf output.txt  set -e  input="$1" output="$2"  tmpdir="$(mktemp -d)"  # extract images of the pages (note: resolution hard-coded) gs -SDEVICE=tiff24nc -r300x300 -sOutputFile="$tmpdir/page-%04d.tiff" -dNOPAUSE -dBATCH -- "$input"  # OCR each page individually and convert into PDF for page in "$tmpdir"/page-*.tiff do base="$" tesseract "$base.tiff" $base done  # combine the pages into one txt cat "$tmpdir"/page-*.txt > $output  rm -rf -- "$tmpdir"

1

Asprise Support 2015-03-12 в 01:38

Asprise OCR Library funktioniert mit den meisten Linux-Versionen. Es kann PDF-Eingabe und Ausgabe als Such-PDF übernehmen.

Es ist ein kommerzielles Paket. Laden Sie hier ein kostenloses Asprise OCR SDK für Linux herunter und führen Sie es folgendermaßen aus:

aocr.sh input.pdf pdf

Hinweis: Das Standalone-Format 'pdf' gibt das Ausgabeformat an.

Haftungsausschluss: Ich bin ein Mitarbeiter der Firma, die das obige Produkt herstellt.

In diesem Beitrag wird angegeben, dass das Produkt dies kann. Dies ist ein hilfreicher Hinweis, der als Kommentar veröffentlicht werden sollte. Es wird nicht erklärt, wie das Problem tatsächlich gelöst werden soll. Können Sie Ihre Antwort so erweitern, dass jemand sehen kann, wie die Lösung funktioniert? fixer1234 vor 9 Jahren 0

Danke, @ fixer1234, ich habe es so bearbeitet, dass es den Befehl enthält. Asprise Support vor 9 Jahren 0

1

Eduard Florinescu 2018-02-03 в 18:52

Der beste und einfachste Weg ist, pypdfocrdas PDF zu ändern

pypdfocr your_document.pdf

Am Ende haben Sie eine andere your_document_ocr.pdfAuswahl mit durchsuchbarem Text. Die App ändert die Bildqualität nicht. Erhöht die Größe der Datei durch Hinzufügen des Überlagerungstexts.

Update 3. November 2018:

pypdfocrwird seit 2016 nicht mehr unterstützt und ich habe einige Probleme festgestellt, weil sie nicht erwähnt wurden. ocrmypdf( Modul ) macht einen ähnlichen Job und kann wie folgt verwendet werden:

ocrmypdf in.pdf out.pdf

Installieren:

pip install ocrmypdf

oder

apt install ocrmypdf

0

Praveen Kumar K R 2015-01-03 в 08:37

Versuchen Sie Apache PDFBox, um Textinhalt aus der PDF-Datei zu extrahieren. Bei in PDF-Dateien eingebetteten Bildern verwenden Sie ABBYY FineReader Engine CLI für Linux, um Text zu extrahieren.

Ich fand ABBYY OCR ziemlich erbärmlich, eines der am wenigsten fähigen Programme, die ich ausprobiert habe. Bei einem wirklich sauberen Bild des Standardtextes mit normaler Textgröße, gemischten Schriftarten, gemischten Größen, komplexem Layout, Grafiken, Linien usw. ist dies möglicherweise ausreichend. fixer1234 vor 9 Jahren 0

Ja, ich habe es auch versucht, es funktioniert gut. Ich habe Zweifel, können Sie mir helfen? Praveen Kumar K R vor 9 Jahren 0

Wenn das, was Sie brauchen, hier nicht in anderen Antworten enthalten ist, stellen Sie am besten Ihre eigene Frage. Dadurch wird es vielen Augen ausgesetzt. fixer1234 vor 9 Jahren 0

Accepted Answer · 2009-08-31 21:39:14

Ich hatte Erfolg mit der von BSD lizenzierten Linux-Portierung des Cuneiform OCR-Systems.

Anscheinend sind keine Binärpakete verfügbar, daher müssen Sie sie aus dem Quellcode erstellen. Stellen Sie sicher, dass die ImageMagick C ++ - Bibliotheken installiert sind, um im Wesentlichen jedes Eingabebildformat zu unterstützen (andernfalls wird nur BMP akzeptiert).

Obwohl es abgesehen von einer kurzen README-Datei im Wesentlichen undokumentiert zu sein scheint, finde ich die OCR-Ergebnisse ziemlich gut. Das Schöne daran ist, dass es Positionsinformationen für den OCR-Text im hOCR- Format ausgeben kann, so dass es möglich wird, den Text an einer korrekten Position in einer verborgenen Ebene einer PDF-Datei wieder einzufügen. Auf diese Weise können Sie "durchsuchbare" PDFs erstellen, aus denen Sie Text kopieren können.

Ich habe hocr2pdf verwendet, um PDFs aus den Original-PDFs und OCR-Ergebnissen (nur Bilder) wiederherzustellen. Leider unterstützt das Programm die Erstellung mehrseitiger PDFs nicht. Daher müssen Sie möglicherweise ein Skript erstellen, um sie zu verarbeiten:

#!/bin/bash # Run OCR on a multi-page PDF file and create a new pdf with the # extracted text in hidden layer. Requires cuneiform, hocr2pdf, gs. # Usage: ./dwim.sh input.pdf output.pdf  set -e  input="$1" output="$2"  tmpdir="$(mktemp -d)"  # extract images of the pages (note: resolution hard-coded) gs -SDEVICE=tiffg4 -r300x300 -sOutputFile="$tmpdir/page-%04d.tiff" -dNOPAUSE -dBATCH -- "$input"  # OCR each page individually and convert into PDF for page in "$tmpdir"/page-*.tiff do base="$" cuneiform -f hocr -o "$base.html" "$page" hocr2pdf -i "$page" -o "$base.pdf" < "$base.html" done  # combine the pages into one PDF gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile="$output" "$tmpdir"/page-*.pdf  rm -rf -- "$tmpdir"

Bitte beachten Sie, dass das obige Skript sehr rudimentär ist. Beispielsweise werden keine PDF-Metadaten gespeichert.

Wie extrahiere ich Text mit OCR aus einem PDF unter Linux?

9 Antworten auf die Frage

Update 3. November 2018:

Verwandte Probleme