Suchen nach Software zum Umbenennen des Dateinamens von JPEG-Scannbild von doc in Text im Bild

Question

Suchen nach Software zum Umbenennen des Dateinamens von JPEG-Scannbild von doc in Text im Bild

1922

therobyouknow 2013-01-19 в 12:21

Ich scanne viele A4-Papierdokumente mit einem automatischen Dokumenteinzugsscanner nach JPEG.

Die Ergebnisse sind FILE0001.JPG FILE0002.JPG usw.

Ich möchte, dass ein Programm den Dateinamen in einen Text umwandelt, der im gescannten JPEG-Bild selbst enthalten ist. Um den Titel zu bestimmen, würde das Programm vorzugsweise nach dem größten Text im Bild suchen, der dem Bild am nächsten liegt.

Ich kenne einige kommerzielle und einige kostenlose OCR-Anwendungen und wäre bereit, falls nötig zu kaufen. Diese scheinen jedoch mehr zu haben, als ich brauche: Sie werden in PDF konvertiert usw., während ich es lieber einfach halte und mit der Original gescanntes Bild.

Wäre willkommen, einfach zu benutzende Programme für Windows XP, 7 oder MacOS.

2

2 Antworten auf die Frage

1

0

J.Anthony 2014-08-18 в 11:57

Sie können dies einfach tun, indem Sie auf das Bild> Umbenennen> (Ihr Name) .jpg> Eingeben klicken

Es wird gemacht! Denken Sie daran, die Dateierweiterung: .jpg beizubehalten

Das ist alles. Alles Gute!

Lesen Sie die Frage noch einmal. therobyouknow vor 10 Jahren 1

Accepted Answer · 2013-01-19 13:10:37

Nach was Sie suchen, ist etwas sehr Komplexes und unwahrscheinlich, dass es zuverlässig ist, selbst wenn ich es finden könnte, fürchte ich.

Ich denke, das Beste, was Sie sich erhoffen könnten, wäre Microsoft OneNote (Teil von Office) oder Evernote (hat eine kostenlose Version).

Beide sind in der Lage, Bilder in Notizen - im Hintergrund - zu OCR-Bildern zu machen, wobei der entdeckte Text durchsucht werden kann. Ich bin nicht sicher, ob sie den Notizentitel aus dem Text herausholen würden. Wenn Sie sicherstellen, dass sich kein anderer Text in der Notiz befindet. Gib ihnen einen Versuch.

Seien Sie jedoch gewarnt, dass OCR selbst bei gut gescannten typisierten oder gesetzten Dokumenten alles andere als zuverlässig ist. Selbst wenn Sie wissen, was einen Titel ausmacht, obwohl er für Menschen leicht zu analysieren ist, ist dies eine sehr schwierige Aufgabe für einen Computer.

UPDATE: Die Komplexität ergibt sich aus einer Reihe von Dingen. Der Vorgang der OCR-Verarbeitung eines Bilds in Text ist für eine Maschine komplex genug. Es gibt so viele Komplexitäten in der Sprache, dass es sehr schwierig ist, die Bedeutung eines Bildes zu erkennen, selbst wenn dieses Bild gesetzt ist. Sogar gesetzte Zeichen variieren massiv, insbesondere beim Scannen aufgrund von Scaneinschränkungen, Winkeländerungen, verschmiertem oder anderweitig beschädigten Ausgangstext (z. B. Falz im Papier) usw. Zweitens, was ist ein Titel? Offensichtlich denken Sie vielleicht - etwas größer als "Durchschnitt" nach oben auf der Seite? Wie ermittelt das System die durchschnittliche Schriftgröße? Es ist eine wichtige Aufgabe, da es den gesamten Scan "analysieren" muss. Dann gibt es viele Layoutkombinationen - welche sollte die Maschine zu erkennen versuchen? Nehmen Sie zum Beispiel einen durchschnittlichen Geschäftsbericht.

Jeder dieser Verarbeitungsschritte wird selbst auf einem modernen PC viel Zeit in Anspruch nehmen und erfordert eine große Datenverarbeitung: Reinigen Sie das Bild, glätten Sie das Bild (erkennen Sie Kanten und "Zeilen" des Textes), wählen Sie die Schriftarten aus, um zu verstehen, was ist Text und was nicht, versuchen Sie, den Text zu erkennen (wahrscheinlich Anwendung der Rechtschreib- und Grammatikregeln), ermitteln Sie die Schriftgröße und den Durchschnitt, identifizieren Sie sich wiederholende Elemente (Kopf- / Fußzeilen), die ignoriert werden sollen, und versuchen Sie, größeren Text früh im Dokument zu identifizieren . Erraten Sie den Titel, prüfen Sie, ob es sich um einen gültigen Dateinamen für die Plattform handelt, ändern Sie ihn, und stellen Sie sicher, dass der Name eindeutig ist und nicht verwendet wird. Puh!

Im besten Fall zielen die meisten OCR-Werkzeuge auf eine Genauigkeit von 90% bei Standard-Scans mit sauberen, direkt eingezogenen Dokumenten. Möchten Sie 90% genau benannte Dokumente haben? Das mag für Sie in Ordnung sein, aber würden sich Kunden eines Produkts damit abfinden? Würde sich das Risiko nach der Entwicklung für die Anbieter lohnen?

Ich kenne die Antworten auf diese Fragen nicht. Ich kann sehen, dass es eine großartige Funktion sein könnte, aber ich weiß nicht, dass jemand dies anbietet (ich habe auch eine schnelle Überprüfung über Google durchgeführt).

Es wäre einfacher, wenn alle Ihre Dokumente dasselbe Layout haben. Dann könnten Sie "Zoning" verwenden, was die meisten besseren Tools bieten, und die entsprechende Zone als Basis für den Dateinamen verwenden. Dies wäre mehr (aber nicht vollständig) zuverlässig. Vielleicht sollten Sie sich bei einigen Anbietern erkundigen, ob sie daran interessiert sind.

Suchen nach Software zum Umbenennen des Dateinamens von JPEG-Scannbild von doc in Text im Bild

2 Antworten auf die Frage

Verwandte Probleme