Scannen von Dokumenten: Wie beschleunigt man den Software-Teil des Scanvorgangs?

3772
user291737

Ich bin auf der Suche nach einer Lösung, um den Scanvorgang für Dokumente zu beschleunigen, insbesondere für Dokumente, die nicht für einen typischen Dokumentenscanner mit automatischer Dokumentenzuführung (ADF) geeignet sind. Für diese Dokumente verwende ich derzeit einen Flachbettscanner.

Zuerst dachte ich, dass eine schnellere Scan-Hardware die Lösung wäre (z. B. ein Kamerascanner anstelle eines typischen Flachbettscanners). Ich habe jedoch festgestellt, dass die Gesamtzeit für einen Scan nur 20% für die Scan-Hardware (Bewegung des Scankopfes), aber 80% für die Software (Bildverbesserung und optische Zeichenerkennung) beträgt.

Um das Scannen zu beschleunigen, untersuchte ich Folgendes: (a) Scansoftware, die nicht nur einen Core / Thread der CPU, sondern mehrere Cores / Threads verwendet. Trotz umfangreicher Suche konnte ich noch kein Multithread-Programm für TWAIN finden. (b) Workflow + Software: Ein Programm, das die Möglichkeit bietet, eigene Scan-Profile zu definieren. Ich konnte aber noch keine Software finden, die Scanprofile und gleichzeitig gutes Auto-Cropping (und OCR nicht nur in Englisch) bietet. (c) Arbeitsablauf, dh OCR in einen separaten Schritt überführen (aber ich bin dadurch nicht schneller geworden, da die mit meinen CanoScan-Flachbettscannern mitgelieferte Software die gleiche Zeit für einen Scan benötigt, unabhängig davon, ob ich OCR einbeziehe oder nicht).

Wie kann ich das Scannen beschleunigen?

Für diejenigen, die Dokumentenscannersoftware von Drittanbietern auf dem Markt kennen: Wird es einen erheblichen Geschwindigkeitsunterschied zwischen einer i7-Dualcore- und einer i7-Quadcore-CPU geben?

Als Dokumentenscanner-Software verstehe ich eine Software, die Bildverbesserungsfunktionen (z. B. Deskew, Auto-Cropping, Descreen), OCR (nicht nur für Englisch) umfasst, die Möglichkeit, eine Reihe von Dateitypen (jpg, jpeg2000, TIFF, durchsuchbares PDF) zu speichern, PDF / A) und Scan-Profile (= benutzerdefinierte Kombination von dpi, Bildoptimierungseinstellungen, OCR-Sprache, Dateityp).

0
Eine Frage ist: "Für diejenigen, die Dokumentenscannersoftware von Drittanbietern auf dem Markt kennen: Wird es einen erheblichen Geschwindigkeitsunterschied zwischen einer i7-Dualcore- und einer i7-Quadcore-CPU geben?" Eine andere Frage betrifft eine Softwareempfehlung mit den Spezifikationen, die ich im letzten Absatz gegeben habe. user291737 vor 10 Jahren 0
Sie haben die Theorie mit Ihrem Kommentar erwähnt: "Ein Single-Core-Prozessor mit der gleichen Geschwindigkeit führt die gleiche Operation aus wie ein Dual- oder Quad-Core-Prozessor bei 1/2 und 1/4 der angegebenen Geschwindigkeiten." Ich habe nach realer Erfahrung mit Dokumentenscannersoftware auf dem Markt gefragt. Mit Dokumenten-Scansoftware in der Praxis: Sehen Sie einen erheblichen Geschwindigkeitsunterschied zwischen einer i7-Dualcore- und einer i7-Quadcore-CPU? user291737 vor 10 Jahren 0
Wenn Sie eine Dokumentenscan-Software kennen, die das Potenzial einer i7-Quad-Core-CPU voll ausnutzt, lassen Sie es mich wissen. user291737 vor 10 Jahren 0
Eine weitere Option ist eine Software, mit der Sie separat scannen und nachbearbeiten können. Mit der Software meines Doc-Scanners kann ich eine ganze Gruppe von Dateien in einem Stapel scannen und später OCR durchführen. Wenn ich OCR machen muss, mache ich die Scans und setze den OCR-Stapel in Bewegung. An diesem Punkt ist es unerheblich, ob es eine Stunde oder acht dauert, solange es am nächsten Tag wieder kommt. Steve Rindsberg vor 10 Jahren 0
Wenn es sich um Geschwindigkeit handelt, möchten Sie möglicherweise einen entsprechenden ISIS-Treiber (http://en.wikipedia.org/wiki/Image_and_Scanner_Interface_Specification) anstelle des TWAIN-Pendants verwenden, da er möglicherweise schneller ist. JSanchez vor 10 Jahren 0
@ Ramhound: Unter www.tomshardware.com/charts/cpu-charts-2013/-29-Adobe-Acrobat-X-Professional,3168.html finden Sie einen Vergleich von Adobe Acrobat und www.tomshardware.com/charts/cpu- charts-2013 / -30-Abbyy-Finereader, 3163.html für Abbyy Finereader sowohl auf Hexa- / Quad- / Dualcore-CPUs mit Hyper-Threading, und Sie werden sehen, dass die Realität von Scansoftware nicht so einfach ist wie in der Bereich der fotografischen Bild- oder Videobearbeitung. Damon bestätigt in der folgenden Antwort auch, dass viele Scansoftware leider nur Singlethreading sind. user291737 vor 10 Jahren 0
@Steve Rindsberg: Ich habe das Scannen noch nicht mit meinem (Canon) Flachbettscanner von der Nachbearbeitung getrennt, da es keinen Unterschied in der Geschwindigkeit macht, ob ich als Bild-PDF oder durchsuchbares PDF-Dokument speichere. Unabhängig davon, ob ich OCR einsetze oder nicht, bleibt die Geschwindigkeit gleich. Dies scheint eine Besonderheit von (vielen) Canon-Scannern zu sein (siehe Reviews auf PCMag.com, z. B. www.pcmag.com/article2/0,2817,2399603,00.asp). user291737 vor 10 Jahren 0
@Ramhound: Auch wenn Sie Software verwenden, die für mehrere Threads optimiert ist, wird beim Wechseln von einem zu vier Kernen keine vierfache Geschwindigkeitssteigerung erzielt. Weitere Informationen finden Sie unter: www.abbyy-developers.eu/de:tech:samples:multicore_processing user291737 vor 10 Jahren 0
@ user291737 Speichern Sie Ihre Scans als TIFFs (Bild) anstelle von PDFs (Dokument) und verarbeiten Sie die TIFFs anschließend nach. Verwenden Sie Canon-Scansoftware oder andere Scansoftware. Versuchen Sie es mit etwas Einfachem wie der Microsoft-Scansoftware oder einer anderen Software. Wenn Sie als TIFF speichern und keine "Spezial" -Effekte benötigen, ist dies mit fast jeder Software möglich. Damon vor 10 Jahren 0
@Ramhound: Wenn Abbyy zu den langsamsten Programmen zählt, die Sie gesehen haben, wissen Sie schnellere. Ich wäre Ihnen dankbar, wenn Sie sie nennen würden. Haben Sie die neueste Version von Abbyy getestet? Vor einigen Jahren habe ich eine ältere Version getestet, die in der Tat langsam war. Abbyy sagt, sie haben in einer aktuellen Version die Multi-Core-Unterstützung eingeführt. user291737 vor 10 Jahren 0
Ich habe die Frage mehrmals bearbeitet. Passt der Wortlaut jetzt zu den Regeln? Könnte [in Wartestellung] bitte entfernt werden? user291737 vor 10 Jahren 0

1 Antwort auf die Frage

2
Damon

Trennen Sie zunächst den Scanvorgang vom Nachverarbeitungsprozess. Dazu scannen Sie als Bild mit einer höheren Auflösung von 300 bis 600 dpi oder mehr. Die Dateien sind groß, aber nur temporär, bis Sie den Prozess nachbearbeiten. Die Dateigröße wird hier am langsamsten sein. Verringern Sie daher Ihre Auflösung und Bittiefe auf einen möglichst niedrigen Wert. (zB Graustufen verwenden, wenn Sie keine Farbe benötigen). Was Sie nicht möchten, ist ein 24-Bit-1200DPI-Bild bei 8-1 / 2 "x11", bei dem es sich um 100 MB handelt, sofern Sie nicht müssen; Das Speichern und Öffnen dauert zu lange.

Wenn Sie dann eine beliebige Software verwenden, die Ihren Anforderungen entspricht, führen Sie Ihre Nachbearbeitung nach Belieben in einem Stapel durch. Die gesamte Software funktioniert anders, so dass Sie Ihre Software lernen müssen.

Hier ist der Haken allerdings. Die meisten Programme werden nur auf einem Kern Ihrer Multi-Core-CPU ausgeführt. Der beste Weg, um die Ausführung zu beschleunigen, besteht darin, Ihr Programm mehrmals zu öffnen und die Stapel zwischen den geöffneten Instanzen des Programms aufzuteilen. Die meisten Programme öffnen nicht mehrere Instanzen. Sie müssen das Programm entweder über das Startmenü manuell oder über den Ausführungsbefehl mit einem speziellen "Schalter" ausführen. Abhängig von Ihrem Programm hängt davon ab, wie Sie es tun. Acrobat muss zum Beispiel vom Befehl run als "ACROBAT / N" ausgeführt werden, um eine neue Instanz zu öffnen, falls eine Instanz bereits geöffnet ist.

Wenn ich mehr als 10.000 Seiten nachbearbeiten muss, werde ich tagsüber 3 Instanzen auf einem 4-Core-Computer öffnen und die Jobs auf die 3 Instanzen aufteilen, sodass ich den Computer weiterhin verwenden kann (die CPU läuft bei 75% und verlässt 25) % für Büro-Gebrauch"). Nachts werde ich 4 Instanzen ausführen, um den Computer auszulasten.

Aber wenn ich weiß, dass die Nachbearbeitung nicht so lange dauert, sagen wir nur ein paar Stunden, werde ich mich nicht darum kümmern, Instanzen zu öffnen. Ich werde einfach eine Charge ausführen und loslassen, bis sie vollständig ist. Bei einem Dual-Core-Computer können Sie damit die Nachbearbeitung durchführen und den Computer trotzdem verwenden. Die meisten Chargen werden nicht so lange dauern. Wenn Sie 2-3 Instanzen auf einem Dual-Core-Computer ausführen, funktioniert Ihr Computer möglicherweise nicht als Desktop für die aktive Verwendung, bis die Stapel abgeschlossen sind.

Unabhängig davon, ob Sie Instanzen ausführen oder nicht, besteht die Möglichkeit, in den Windows-Task-Manager zu gehen und die CPU-Priorität für die Instanzen auf unter-Normal zu ändern, damit Ihre aktive Arbeit Vorrang vor der Hintergrundnachbearbeitung hat.

Je mehr Kerne arbeiten, desto schneller wird die Verarbeitung. Das Problem ist, wenn Sie über eine Dual-Core-CPU verfügen, auf der Sie eine Single-Threaded-App ausführen, einen vergleichbaren Quad-Core kaufen und dieselbe App auf dieselbe Weise ausführen, dass sie nicht schneller läuft. Der Trick besteht also darin, Ihre Single-Threaded-App mehrmals gleichzeitig auszuführen, um die CPU-Kapazitäten optimal zu nutzen.

Speichern Sie am Ende der Nachbearbeitung die Dokumente im gewünschten Format und anschließend im QC-Stapel, bevor Sie die Bilder löschen.

Wenn Sie Acrobat verwenden und große Stapel ausführen, müssen Sie sich auf Probleme einstellen! Suche nach Lösungen und finde mehr Leute mit den gleichen Problemen! Acrobat ist ein SCHMERZ!

Vielen Dank für Ihre kompetente Antwort !!! Ich wusste, dass viele Scan-Programme nur einen einzigen Thread ausführen. Deshalb hoffte ich auf einige Hinweise zu Software, die mehrere Threads ausführt. Der Scan-Markt scheint bei vielen älteren Anwendungen, die 10 oder sogar 20 Jahre alten Code enthalten, ziemlich eigenartig zu sein, und die Unternehmen, die solche Software verkaufen, machen sich nicht die Mühe, sie aufzurüsten, um das volle Potenzial moderner CPUs zu nutzen. Ich wusste nicht, dass es möglich ist, mehrere Instanzen zu starten, vielen Dank! user291737 vor 10 Jahren 0
Eine Frage zum Arbeitsspeicher: Sind 8 GB ausreichend oder wären es mit 16 GB oder sogar 32 GB schneller? user291737 vor 10 Jahren 0
ABBYY FineReader 11 und Omnipage 18 / Professional 18 / Ultimate behaupten, dass sie Multi-Core-Prozessoren unterstützen. Hast du Erfahrung mit ihnen? user291737 vor 10 Jahren 0
@ user291737 Autocad Architecture ist ein 6.000-Dollar-Design-Programm, das einen Singlethread-Modus hat. Es sind also nicht nur die 10-20 Jahre alten Programme, die Single-Threading-fähig sind. Adobe Acrobat ist auch Single-Threading. RAM ist eines der Dinge, bei denen, wenn Sie genug haben, es keinen Unterschied macht. Überprüfen Sie den Speicher im Windows-Ressourcenmonitor, um festzustellen, ob Sie über genügend Speicher verfügen. In wahrscheinlich 99% der Fälle für einen Bürocomputer sollten 8 GB mehr als ausreichend sein. Ich bin mit den von Ihnen erwähnten Programmen nicht vertraut. Damon vor 10 Jahren 0
Ist Ihre Nachbearbeitung auf OCR beschränkt oder führen Sie auch eine Bildverbesserung in der Nachbearbeitung durch (z. B. Descreening, Reduzierung des Durchscheinen, automatisches Zuschneiden)? Mir ist aufgefallen, dass bei einem Flachbettscanner mit 300 dpi der Bildschirm fast die Zeit verdoppelt, die erforderlich ist, um den Scanvorgang + die Bearbeitung einer Seite abzuschließen. Wenn ich Descreen auf eine separate Nachbearbeitungsstufe verschieben könnte, könnte ich viel Zeit sparen. Ich verwende regelmäßig Descreen (zB beim Scannen von Seiten aus Zeitschriften mit Text und Grafiken). Dadurch kann die Dateigröße erheblich verringert werden. user291737 vor 10 Jahren 0
Ich habe es alles, was das Programm standardmäßig macht; OCR, Deskew, Downsampling von Bildern und einige andere Sampling-Effekte für Nicht-Bildbereiche, so dass die Größe drastisch reduziert wird, zusammen mit anderen Dingen, die ich nicht gespeichert habe. Standardmäßig ist dies jedoch der Fall, sofern Sie sie nicht ausschalten. Scannen Sie einfach ein TIFF. oder ein anderes Bild muss nichts anderes tun, als das Bild zu scannen und zu speichern. Kein rotes Auge, keine Kompression, nichts. Je einfacher das Programm, desto besser. Sie möchten ein einfaches Rohbild, mit dem Sie später arbeiten können. JPEGs sind komprimiert, das wollen Sie nicht einmal. Damon vor 10 Jahren 0
Ich habe Ihren Vorschlag getestet und ohne Bildverbesserung nach TIFF gescannt. Wenn ich dann mit Acrobat die TIFF-Datei verarbeite, ist das resultierende PDF nicht so klar wie bei der Bildverbesserung durch den TWAIN-Treiber / die mitgelieferte Software. Beispielsweise ist Acrobat nicht so gut wie der Treiber / die Software, um Druckstellen auf der Rückseite dünner Seiten zu entfernen. Wenn ich den Treiber / die Software das Entfernen durchlaufen lasse, erhöht sich die Verarbeitungszeit um etwa 20%, verglichen mit dem Scannen nach TIFF ohne Bildverbesserung. Bekommen Sie mit solchen Dokumenten klare PDFs mit Acrobat? user291737 vor 10 Jahren 0
Wir haben kein Durchbluten auf unseren Seiten gesehen und haben keinen Akrobaten benötigt, um es aufzuräumen. Ihre ursprüngliche Frage erwähnte 20% Scanzeit, 80% Verarbeitungszeit. Mit der vorgeschlagenen Lösung konnte die Bearbeitungszeit reduziert werden. Wenn Sie immer noch 25% Scanzeit und 75% Verarbeitungszeit ohne Bearbeitung haben, kann ich Ihnen nicht sagen, warum Sie die Manschette nicht benutzen. Und wenn der Akrobat nicht ausblutet, ist das eine ganz andere Frage und Lösung aus Ihrer ursprünglichen Frage. Tut mir leid, aber es sieht so aus, als würde Ihre Suche nach einem Problem weitergehen! Damon vor 10 Jahren 0
Es tut mir leid, dass ich das nicht erwähne: Wenn ich ohne Bildverbesserung in TIFF scanne, beträgt die Scanzeit 90% und die Verarbeitungszeit 10%. Zeitlich ist das vollkommen in Ordnung. Wenn es eine Möglichkeit gibt, in einem separaten Nachverarbeitungsschritt die gleiche Bildqualität wie mit dem mitgelieferten Treiber / der entsprechenden Software zu erzielen, wäre dies perfekt. user291737 vor 10 Jahren 0