Ich verwende ein Python-Skript, das das docx.py
Modul (siehe hier ) verwendet, um Word-Dateien zu lesen und die einzelnen Wörter für eine verwandte Aufgabe zu verarbeiten. Die Schlüsselbits befinden sich im folgenden Code (der nur eine .docx-Datei liest, die als erstes Befehlszeilenargument angegeben wurde, die aber leicht erweitert werden kann, um Wörter in vielen Dateien zu zählen:
from docx import * import sys try: document = opendocx(sys.argv[1]) except: print('Could not open '+sys.argv[1]) exit() ## Fetch all the text out of the document paratextlist = getdocumenttext(document) count = {} for line in paratextlist: for word in line.rstrip().split(): count = count.get(word,0) + 1