Lesen Sie eine MS Word (doc) -Datei Seite für Seite

414
leo

Gibt es eine Möglichkeit, wvWare (oder ein anderes Befehlszeilentool oder eine Python-Bibliothek) dazu zu bringen, eine Doc-Datei Seite für Seite zu lesen? Ich kann anscheinend nichts in wvWares Handbuch finden, weder in Abiword, Antiword noch in Catdoc.

1
Was ist Wvware und Wmware? Prasanna vor 9 Jahren 0
@Prasanna Sorry, sollte wvWare sein. wv ist [eine Bibliothek] (http://wvware.sourceforge.net/), um alte Microsoft Word-Dateien (`doc`) anzuzeigen. Es wird zB von OpenOffice, LibreOffice und Abiword verwendet, also ist es eine Art Standardbibliothek, denke ich. leo vor 9 Jahren 0
Ich weiß, dass Adobe Reader die Möglichkeit hat, Seiten laut vorzulesen. Möglicherweise können Sie Ihre Doc-Dateien in PDF konvertieren und Seite für Seite lesen (sogar Wort für Wort). Prasanna vor 9 Jahren 0
@Prasanna Yep, das Konvertieren in ein anderes Format ist eine Option, aber ich konvertiere 100.000 Dateien, daher hoffte ich, dies möglichst zu vermeiden, um das Skript etwas schneller zu machen. leo vor 9 Jahren 0
Ein wahnsinnig hässlicher Weg wäre es, im Originaldokument nach ^ L zu suchen und herauszufinden, wo sie im Text vorkommen (Nicht-Docx-Word-Dokumente sind meistens reiner Text). barrycarter vor 9 Jahren 1
@barrycarter Kannst du etwas ausarbeiten? Was ist "^ L"? Ein Zeilenvorschub? (Ja, ich versuche zu vermeiden, [die Dokumente] zu lesen (http://download.microsoft.com/download/2/4/8/24862317-78F0-4C4B-B355-C7B2C1D997DB/ [MS-DOC] .pdf Zu meiner Verteidigung sind das 627 Seiten) leo vor 9 Jahren 0
^ L ist Steuer-L, Zeichencode 12 und wird manchmal als "Formularvorschub" bezeichnet (das "Zeilenvorschubzeichen" ist ^ J, zwei Zeichen früher). Wenn Sie ein unformatiertes Word-Dokument in emacs (oder einem Editor, der Steuercodes anzeigt) anzeigen, wird am Ende jeder Seite eines davon angezeigt. barrycarter vor 9 Jahren 1
@ barrycarter Danke, wenn du diese Informationen als Antwort hinzufügst, akzeptiere ich und stimme zu! leo vor 9 Jahren 0
Fertig, auch wenn ich mich schlecht fühle, weil ich schrecklich bin, Antworten auf meine eigenen Fragen zu äußern :) barrycarter vor 9 Jahren 0

1 Antwort auf die Frage

1
barrycarter

Ein wahnsinnig hässlicher Weg wäre es, im Originaldokument nach ^ L zu suchen und herauszufinden, wo sie im Text vorkommen (Nicht-Docx-Word-Dokumente sind meistens reiner Text: Ich verwende manchmal den stringsBefehl, um den Inhalt zu lesen).

^ L ist Steuer-L, Zeichencode 12 und wird manchmal "Formularvorschub" genannt. Wenn Sie ein unformatiertes Word-Dokument in emacs (oder einem Editor, der Steuercodes anzeigt) anzeigen, wird am Ende jeder Seite eines davon angezeigt.