Praktische OCR-Lösung zum Konvertieren eines großen Buches in ein digitales Format?

9726

Ich war am vergangenen Wochenende bei meinem Großelternteil vorbei. Meine Großmutter zog dieses riesige (~ 1400 Seiten) Buch über ihre Familiengeschichte heraus, das bis etwa 1630 zurückreicht. Riesiger Nerd, der ich bin, dachte ich, es wäre glatt, wenn alle Informationen in einer Datenbank gespeichert und aus dem Web verfügbar wären. Ich kann mit der gesamten Webprogrammierung und regulären Ausdrücken umgehen und was nicht, aber was ich nicht weiß, ist der beste Weg, um den Text von Buch zu Computer zu bringen.

Ich weiß, dass eine Art von OCR notwendig sein wird. Aus meiner kleinen Recherche scheint es mir so zu gehen, dass ich folgende Optionen habe:

  1. Machen Sie mit jeder Kamera ein Foto von jeder Seite und bearbeiten Sie die Bilder mit der OCR-Software
  2. Verwenden Sie einen Scanner, um jede Seite zu scannen, und verarbeiten Sie sie anschließend mit der OCR-Software
  3. Verwenden Sie eine Art Handgerät wie dieses .

Hat jemand eine Idee, wie man dieses Problem am besten lösen kann? Ich möchte das Buch nicht zerstören, denn meines Wissens kann es nicht ersetzt werden. Dies ist wahrscheinlich das einzige Mal, dass ich ein großes Buch scannen werde. Ich glaube nicht, dass ich mehr als 250 Dollar für jedes Gerät ausgeben möchte. Es macht mir nichts aus, wenn Sie sich um manuelle Arbeit kümmern (ich weiß, dass dies höchstwahrscheinlich Monate dauern wird), aber ich würde gerne die effizienteste Methode finden, die möglich ist.

Anmerkung zum Buch: Es ist erst 20 Jahre alt, also in ziemlich gutem Zustand. Es ist einfarbig und die Seiten färben sich nicht gelb. Da es jedoch so groß ist, mache ich mir Sorgen über mögliche Schatten, wenn der Text in der Nähe der Bindung erscheint.

12
Nebenbei bemerkt, wenn das Buch erst 20 Jahre alt ist und die Informationen bis in das 17. Jahrhundert zurückreichen, wo ist dann das ursprüngliche Ausgangsmaterial? Das könnte auch schön zu erfassen sein! Craig vor 14 Jahren 1
Ja, das wäre auch cool. Ich werde sehen, ob ich den ursprünglichen Autor finden kann. vor 14 Jahren 0

8 Antworten auf die Frage

8
caliban

Ich kam in dieses auf Lifehacker ganz einige Zeit zurück, und es hat sich einer meiner Top - DIY - Projekte seitdem.

enter image description here

Ersetzen Sie das iPhone durch eine beliebige Kamera oder Bildgebung, und Sie erhalten einen Stapel schöner, hochauflösender JPEG-Dateien, die Sie mit jeder Software (auch: Urks!) MS Office ...

Billig. Wirksam. DIY. Sie können eine Idee wie diese nicht schlagen.

BEARBEITEN: Kommentare ergaben einige Punkte zu Schatten, Seitenwindungen usw. Für jeden, der Bibliothekstexte buchstäblich mit Foto kopiert hat, leicht zu lösen.

Fügen Sie mehrere Lichtquellen hinzu, um das Buch zu beleuchten und die Schatten zu beseitigen.

Neigen Sie das Buch um 90 Grad, sodass die Seiten nicht zu den Bindungen in der Mitte rollen. Es erhält auch die Bindung.

Ich werde sehen, ob ich ein Beispiel geben und ein eigenes aufstellen kann.

BEARBEITEN 2: Hochgeladene Probe, wie Sie das Buch halten sollten und auch die Lichtquelle von links beachten.

enter image description here

Das ist so cool! Ich wünschte ich könnte das :) alex vor 14 Jahren 0
Dafür benötigen Sie jedoch eine echte Kamera und eine gute Qualität. Andernfalls werden Sie mit einem Bild enden, das Sie nicht nutzen können, vor allem aus einem sehr alten Buch. Es ist also alles andere als günstig. Gnoupi vor 14 Jahren 0
Sehr interessant. Ich frage mich, wie dies mit einem Buch funktionieren würde, wenn man bedenkt, dass die Schatten wahrscheinlich zwischen den Seiten liegen. vor 14 Jahren 0
Wenn die Seiten verbogen sind oder Schatten aufweisen, kann es vorkommen, dass die OCR-Software die Buchstaben nicht erkennt. alex vor 14 Jahren 0
Fügen Sie mehrere Lichtquellen hinzu, um das Buch zu beleuchten, und beseitigen Sie die Schatten. Neigen Sie das Buch um 90 Grad, damit die Seiten nicht zu den Bindungen in der Mitte rollen. Es ist einfach vernünftig, wir machen das schon während der Collegezeit und machen Fotos von Bibliothekstexten. caliban vor 14 Jahren 0
@Gnoupi - Sie benötigen nicht unbedingt ein Phase One Leaf-System mit 56 Megapixeln, um OCR-Aufnahmen durchzuführen. In der Tat reichen günstige 5 Megapixel aus. Stellen Sie die Einstellung auf ISO 50 oder 100 für wenig Lärm ein, schalten Sie den Modus mit verzögerter Aufnahme ein, feuern Sie ihn ab und lassen Sie ihn erfassen. 5 Megapixel sind ideal für die Arbeit mit OCR. caliban vor 14 Jahren 0
Ich werde diese oder eine kleine Variation von ungefähr 20 Seiten ausprobieren und sehen, wie praktisch sie sein wird. Danke für die Tipps! vor 14 Jahren 0
Ich konnte die Originaldateien nicht finden und der Autor antwortete nicht auf meine E-Mails. Ich habe stattdessen [diesen Scanstand von Thingiverse] (https://www.thingiverse.com/thing:1079354) verwendet. Ich habe einige Tests gemacht und hatte Probleme mit "Tesseract", vielleicht wegen unregelmäßiger Beleuchtung ohne Blitz und hellen Reflexen mit Blitz. Ich habe 5-10% der Fehler mit diesem Scanstand und nahezu perfekte Ergebnisse mit einem geeigneten Scanner erhalten. Da ich viele Bücher zum Scannen habe, entschied ich mich für einen richtigen Scanner. mmorin vor 5 Jahren 0
3
alex

Soweit ich weiß, stellt ABBYY die beste OCR-Software her, die jedoch nicht kostenlos ist. Sie sollten versuchen, eine Testversion von ABBYY FineReader zu verwenden . Vielleicht hilft Ihnen das.

1
NickSentowski

Sie müssen das Bild irgendwie aufnehmen. Es gibt verschiedene Dienste, die dies für Sie tun. Sie benötigen außerdem jemanden, der mit dem Inhalt des Textes vertraut ist, um Korrektur zu lesen, da OCR noch nicht perfekt ist. Besonders mit etwas Handgeschriebenem.

Andere diskutieren Ihre Frage hier: http://ask.metafilter.com/92506/scan-my-books

Einige Unternehmen tun dies für Sie: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Einige freie Software: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

1
Xaq Fixx

Für ein großes und für Sie und Ihre Familie so wichtiges Projekt wie dieses kann ein DIY-Buchscanner der richtige Weg sein, einige Designs sogar Sport-Seitenwender - http://www.diybookscanner.org/ Dieses unterstützt OCR nicht von Haus aus, schießt aber 600 Seiten pro Stunde, und Sie können es nach der Tatsache über OCR laufen lassen http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/

0
Chris Nava

Vielleicht möchten Sie sehen, ob eine Universität in Ihrer Nähe einen ganzen Buchscanner hat, und dann einen Studenten dafür bestechen / bestechen, dass er Ihr Buch durchläuft.

0
Greg Buehler

Ich würde einen Flachbettscanner empfehlen, der zum Scannen von Büchern verwendet wird, oder einen ganzen Buchscanner, wie von Chris erwähnt.

Wenn Sie können, können Sie Ihre Bilder in einem TIFF-Format zusammenstellen, da dies bei Dokumentenverwaltungssystemen Branchenstandard ist.

Für OCR würde ich Tesseract OCR empfehlen, da es der Rahmen ist, den Google für ihr Buchprojekt dargelegt hat.

0
pelms

Bei der Arbeit verwenden wir einen Plustek Optibook 3600 -Buchscanner, der etwa 250 US-Dollar kostet .
Es ist im Grunde ein normaler Flachbettscanner, aber die Glasplatte geht direkt an den Rand des Scanners, sodass die Buchseite flach auf der Platte platziert werden kann. Dadurch wird der Schatten der Wirbelsäule eliminiert und Bücher werden nicht beschädigt.

enter image description here

Haben Sie das schon mal mit einem wirklich dicken Buch versucht? Es ist wie 3 Zoll dick. vor 14 Jahren 0
Wenn Sie es um 90 ° mit der Seite öffnen können, sollte es in Ordnung sein. Versuchen Sie es an einem Tischrand. pelms vor 14 Jahren 0
0

Es klingt zwar verlockend, den Prozess zu automatisieren, Sie möchten jedoch mehr Zeit und Arbeit investieren, da dieses Buch eine persönliche Angelegenheit ist. OCR übernimmt den Großteil, aber Sie müssen Seite für Seite Korrekturlesen und mit dem Original vergleichen. Denken Sie daran, dass die Fehler des Autors Teil des Deals sind, korrigieren Sie sie nicht (erstellen Sie Fußnoten, wenn Sie sich dazu neigen). Nehmen Sie sich Zeit, setzen Sie sich nicht unter Druck, das Scannen von Büchern ist Eselarbeit, aber Gründlichkeit zahlt sich aus und Sie erhalten eine schöne digitale Kopie Ihrer chronischen Familie. viel Glück mit deinen Bemühungen :)

Das ist eigentlich ein wirklich guter Punkt. Ich hatte nicht darüber nachgedacht, den Originalinhalt des Buches digital zur Verfügung zu stellen, aber solange ich ihn habe, kann ich auch eine .pdf-Version erstellen. vor 14 Jahren 0
warum PDF? Denken Sie an HTML. Sie können auch die ursprünglichen Scans beibehalten, obwohl am Ende eine riesige Datenmenge vorhanden ist. vor 14 Jahren 0
Meine Idee war, alle Geburts- / Abstammungsinformationen in einer Datenbank zu haben, sodass ich ein Web-Frontend erstellen konnte, das das Navigieren / Suchen / Aktualisieren erleichtern würde. Ich plane, Tippfehler aus dieser Version herauszuarbeiten. Ich habe auch einige Cousins, die nicht da sind, und es wäre schön, sie hinzuzufügen. Ich dachte an pdf, weil es schön wäre, etwas zu haben, das wie das ursprüngliche Buch mit den ursprünglichen Seitennummern und solchen intakten aussehen würde. Diese Version würde ich in Ruhe lassen und alle Tippfehler aus dem Buch behalten. vor 14 Jahren 0