Für mich sieht es so aus, als würde das Originaldokument etwas tun, das ich als Font-Substitution bezeichnet habe.
Serbien war in den 80er und 90er Jahren ein schneller Weg, um unsere einzigartigen Charaktere zu erhalten, war die Verwendung einer Schriftart, die unsere Symbole für lateinische Codes enthielt, die sich auf der Tastaturposition befanden, an der sich unser eigener Buchstabe befinden würde. Nehmen wir zum Beispiel Wort ужички
. Auf solchen Systemen geben Sie es als ein u\i;ki
und verwenden eine Schriftart, die anstelle von \ und ч anstelle von;. Dies ist sehr einfach zu implementieren, da Sie eigentlich keinen anderen Zeichensatz verwenden und bei korrekter Anzeige kein Unterschied besteht. Leider funktioniert dies bei der Internationalisierung nicht gut und ist ein Problem, wenn Sie mehrere verschiedene Zeichensätze auf einem einzelnen Computer benötigen.
Soweit ich weiß, besteht die einzige Lösung für Probleme darin, ein Programm zu verwenden, das solchen Text in richtigen Unicode-Text übersetzt. Das Problem hier ist, dass Sie eine Mischung aus griechischen und lateinischen Buchstaben haben, so dass das Programm nicht einfach zu einem blöden Ersatz führen kann. Meines Erachtens gibt es keinen einfachen Weg, das Problem zu lösen.
Sie könnten versuchen, das Dokument abzurufen und über ein ordnungsgemäßes OCR-Programm auszuführen, das Buchstaben und die Ausgabe in Unicode erkennt, aber ich habe OCR seit einiger Zeit nicht mehr verwendet, daher kann ich keinen empfehlen, der helfen kann. Beachten Sie auch, dass einige OCR-Programme nur Eingaben von einem Scanner akzeptieren. Daher müssen Sie bei der Auswahl des OCR-Programms vorsichtig sein, es sei denn, Sie möchten das gesamte Dokument drucken und es scannen.