Nach was Sie suchen, ist etwas sehr Komplexes und unwahrscheinlich, dass es zuverlässig ist, selbst wenn ich es finden könnte, fürchte ich.
Ich denke, das Beste, was Sie sich erhoffen könnten, wäre Microsoft OneNote (Teil von Office) oder Evernote (hat eine kostenlose Version).
Beide sind in der Lage, Bilder in Notizen - im Hintergrund - zu OCR-Bildern zu machen, wobei der entdeckte Text durchsucht werden kann. Ich bin nicht sicher, ob sie den Notizentitel aus dem Text herausholen würden. Wenn Sie sicherstellen, dass sich kein anderer Text in der Notiz befindet. Gib ihnen einen Versuch.
Seien Sie jedoch gewarnt, dass OCR selbst bei gut gescannten typisierten oder gesetzten Dokumenten alles andere als zuverlässig ist. Selbst wenn Sie wissen, was einen Titel ausmacht, obwohl er für Menschen leicht zu analysieren ist, ist dies eine sehr schwierige Aufgabe für einen Computer.
UPDATE: Die Komplexität ergibt sich aus einer Reihe von Dingen. Der Vorgang der OCR-Verarbeitung eines Bilds in Text ist für eine Maschine komplex genug. Es gibt so viele Komplexitäten in der Sprache, dass es sehr schwierig ist, die Bedeutung eines Bildes zu erkennen, selbst wenn dieses Bild gesetzt ist. Sogar gesetzte Zeichen variieren massiv, insbesondere beim Scannen aufgrund von Scaneinschränkungen, Winkeländerungen, verschmiertem oder anderweitig beschädigten Ausgangstext (z. B. Falz im Papier) usw. Zweitens, was ist ein Titel? Offensichtlich denken Sie vielleicht - etwas größer als "Durchschnitt" nach oben auf der Seite? Wie ermittelt das System die durchschnittliche Schriftgröße? Es ist eine wichtige Aufgabe, da es den gesamten Scan "analysieren" muss. Dann gibt es viele Layoutkombinationen - welche sollte die Maschine zu erkennen versuchen? Nehmen Sie zum Beispiel einen durchschnittlichen Geschäftsbericht.
Jeder dieser Verarbeitungsschritte wird selbst auf einem modernen PC viel Zeit in Anspruch nehmen und erfordert eine große Datenverarbeitung: Reinigen Sie das Bild, glätten Sie das Bild (erkennen Sie Kanten und "Zeilen" des Textes), wählen Sie die Schriftarten aus, um zu verstehen, was ist Text und was nicht, versuchen Sie, den Text zu erkennen (wahrscheinlich Anwendung der Rechtschreib- und Grammatikregeln), ermitteln Sie die Schriftgröße und den Durchschnitt, identifizieren Sie sich wiederholende Elemente (Kopf- / Fußzeilen), die ignoriert werden sollen, und versuchen Sie, größeren Text früh im Dokument zu identifizieren . Erraten Sie den Titel, prüfen Sie, ob es sich um einen gültigen Dateinamen für die Plattform handelt, ändern Sie ihn, und stellen Sie sicher, dass der Name eindeutig ist und nicht verwendet wird. Puh!
Im besten Fall zielen die meisten OCR-Werkzeuge auf eine Genauigkeit von 90% bei Standard-Scans mit sauberen, direkt eingezogenen Dokumenten. Möchten Sie 90% genau benannte Dokumente haben? Das mag für Sie in Ordnung sein, aber würden sich Kunden eines Produkts damit abfinden? Würde sich das Risiko nach der Entwicklung für die Anbieter lohnen?
Ich kenne die Antworten auf diese Fragen nicht. Ich kann sehen, dass es eine großartige Funktion sein könnte, aber ich weiß nicht, dass jemand dies anbietet (ich habe auch eine schnelle Überprüfung über Google durchgeführt).
Es wäre einfacher, wenn alle Ihre Dokumente dasselbe Layout haben. Dann könnten Sie "Zoning" verwenden, was die meisten besseren Tools bieten, und die entsprechende Zone als Basis für den Dateinamen verwenden. Dies wäre mehr (aber nicht vollständig) zuverlässig. Vielleicht sollten Sie sich bei einigen Anbietern erkundigen, ob sie daran interessiert sind.