Ja, Sie würden zu einem Dokument extrahieren, um Zugriff auf Text zu erhalten, und dann Software verwenden, um Schlüsselwörter zu analysieren und zu erhalten (oder wie Sie es formulieren - interessante Wörter).
TexLexAn ist eine gute Open Source-Option: http://texlexan.sourceforge.net/
Hier sind andere: http://www.quora.com/Was sind-guteWerkzeuge-zu- extrakten- Schlüssel-und-oder-Topics- tags-von- a-Random- Parameter-von-Text