Extrahieren von Text aus einem .PDF-gescannten Buch

4810
ChristianM

Ich habe ein Buch im PDF-Format gescannt, aber die Qualität ist eher schlecht:

Extrahieren von Text aus einem .PDF-gescannten Buch

(Die Sprache ist rumänisch und es ist ein Buch über medizinische Physiologie, falls Sie sich gefragt haben)

Ich möchte Text aus dem Buch extrahieren (1500 Seiten), aber die Bilder so behalten, wie sie sind. Ich glaube wirklich nicht, dass ich eine Chance habe, eine Lösung zu finden, also kaufe ich das Buch.

Gibt es überhaupt eine leistungsfähige Software, die das kann, wonach ich suche? Es muss auch Rumänisch erkennen.

6
kauf es, es ist legal. :) vor 14 Jahren 1
Was ist, wenn dies ein wirklich altes Buch ist, das er nicht mehr kaufen kann? :) Botond Balázs vor 14 Jahren 0
@Botond, das ist in der Tat ein großes Problem bei Google Buchsuche. Schätzungsweise 70% der Bücher sind urheberrechtlich geschützt, jedoch vergriffen. Eine Sammelklage (Verhandlung zwischen Google und einigen Anwälten, die für Authors Guild und AAP tätig sind) besagt, dass Google für out-of-print keine Erlaubnis benötigt, es sei denn, die Rechteinhaber widersprechen der Vereinbarung ausdrücklich. Und so wie das US-amerikanische Gesetz funktioniert, ist dies für jedes literarische Werk verbindlich. Solange andere Unternehmen keinen ähnlichen Deal erzielen, hat Google ein Monopol auf alte Literatur :-( Siehe Boing Boing unter http://tinyurl.com/yl5rlts Arjan vor 14 Jahren 0
Das Problem des OP besteht darin, Text aus einem Buch zu extrahieren. Dies ist immer noch ein Problem, auch wenn er das Buch gekauft hat. Rechtliche Fragen sind hier allerdings nicht in Betracht zu ziehen. mouviciel vor 14 Jahren 1

7 Antworten auf die Frage

6
Jukka Matilainen

Ich habe bereits eine Antwort veröffentlicht, in der beschrieben wird, wie mit Cuneiform (Open Source-Software) OCR für PDF-Dateien ausgeführt wird, und wie eine PDF-Datei mit dem erkannten Text in einer versteckten Textebene "hinter" dem Originalbild erstellt wird. Soweit ich weiß, unterstützt Cuneiform tatsächlich auch Rumänisch.

Während die spezielle Lösung für Linux war, ist Cuneiform auch für Windows verfügbar.

2
Lukas

Adobe Acrobat Professional kann das. Ich bin mir nicht sicher, ob es eine rumänische Version gibt ...

2
Konstantin Tenzin

ABBYY Fine Reader ist eine sehr starke OCR-Software. Es behandelt sehr komplexe Layouts und unterstützt eine Vielzahl von Formaten (einschließlich PDF). Rumänisch wird mit Wörterbuch unterstützt, dh Software verwendet Wörterbuch für Hypothesen, die während der Erkennung Prioritäten setzen. ( hier ).

In jedem Fall ist die OCR-Erstellung von wissenschaftlicher Literatur mit schlechter Scanqualität eine schwierige Aufgabe. Seien Sie bereit, viel Zeit damit zu verbringen, der Software bei der Überprüfung der Ergebnisse und der Fehlerbehebung zu helfen. Auf Ihrem Scan sehe ich eine Menge Text von sehr schlechter Qualität :(. Ich glaube nicht, dass OCR-Software damit normal funktionieren könnte.

1
Botond Balázs

Recognita OmniPage ist bei weitem das beste OCR-Programm, das ich jemals verwendet habe. Ich bin mir sicher, dass rumänische Texte erkannt werden. Es war kein Problem mit meiner ungarischen Muttersprache. Sie können eine Testversion über den Link herunterladen und damit Ihr Buch konvertieren. Die Vollversion ist leider ziemlich teuer (499,99 $) ...

1
ChristianM

Ich habe das Buch gekauft!

0
Rook

Nun, zur Texterkennung sucht man normalerweise nach OCR-Programmen (Optical Character Recognition, optische Zeichenerkennung). Es gibt eine Vielzahl von ihnen, so dass eine einfache Google-Suche hier mehr Gutes bringt als ich.

Ich habe den letzten Teil "Rumänisch nicht erkennen" nicht verstanden - Sie meinen, er muss die rumänische Sprache erkennen oder ins Rumänische übersetzt werden? Im ersten Fall glaube ich, dass es kein Problem geben wird. Wenn der zweite der Fall ist, bin ich mir nicht so sicher.

Wenn es sich nicht um ein Buch von Ihren Landsleuten handelt, besteht die Möglichkeit, dass es bereits in Englisch übersetzt wird. Wenn Sie also ein PDF in Rumänisch haben, suchen Sie nach einer englischen Version ... dann ist das einzige Problem das weißt du ... illegal (manchmal hat man aber keine Wahl).

Ich meine, es muss die rumänische Schrift / rumänische Schriftzeichen erkennen. Jemand hat meinen Beitrag bearbeitet .. weiß nicht warum. : | ChristianM vor 14 Jahren 0
Ich denke nicht, dass Sie damit Probleme haben sollten (nur für wirklich schlecht gescannte teyt, wenn es nicht entscheiden kann, ob etwas ein Brief oder ein Blob ist, dann müssen Sie möglicherweise manuell korrigieren) - Ich habe eine Vielfalt verwendet von Software auf kroatischer Sprache (wir haben einige seltsame Buchstaben in unserem Alphabet) und es hat gut funktioniert. Rook vor 14 Jahren 0
OCR verwendet häufig eine Rechtschreibprüfung, um Scan-Fehler auszugleichen. Diese Rechtschreibprüfung muss also Rumänisch unterstützen. (Ja, einige OCR-Ergebnisse liefern aufgrund dieses Mechanismus zur Rechtschreibprüfung * bessere * Ergebnisse als der ursprüngliche Text.) Arjan vor 14 Jahren 0
Diese Schriftarten sind bei der Verwendung von OCR-Software immer knifflig: **,,,,,, ţ,,,, Î, Ş, Ţ **. Sie wären überrascht, wie schlecht sie beim Scannen eines Buches herauskommen. alex vor 14 Jahren 0
-1
rlangner

Versuchen Sie es mit PDFCubed.com . Es ist ein Online-OCR-Dienst, der das Erstellen eines durchsuchbaren Text-PDFs vereinfacht. Gescannte Dokumente können per Web, E-Mail oder Dropbox übermittelt werden.