Gibt es eine Software, die eine Textanalyse in Blogs durchführt?

1045
Brian Bauman

Mein Unternehmen möchte eine PivotViewer-Visualisierung der Wordpress 2-Blogeinträge eines Kunden für die letzten 11 Jahre erstellen. Dazu müssen wir jedoch die etwas zufälligen, unvollständigen und im Allgemeinen schlechten Tags bearbeiten, um sie als sortierbare Kategorien verwenden zu können. Ich suche nach einem Werkzeug, das ihre Blogeinträge analysiert und die Wortzählung durchführt, um uns einen Eindruck von dem zu vermitteln, mit dem wir es zu tun haben.

Im Idealfall hätte es all diese Funktionen:

  1. Word-Blacklisting (ignorieren)
  2. Wort stemming
  3. Benutzerdefiniertes Synonym mischen
  4. Alle Anwendungen zählen
  5. Die Anzahl der Beiträge, die ein Wort enthält, wird gezählt.

Ich hätte gedacht, dass diese Art von Textanalyse extrem häufig ist, aber ich konnte keine Software finden, die diese Art von Sachen in ganzen Blogs macht. Gibt es dafür Software?

8
Interessant. Im Zweifelsfall hat Python dich wiedergefunden. James T Snell vor 12 Jahren 3
Ja ... Ich hoffe wirklich, dass ich mich bei diesem hier nicht rollen muss. Brian Bauman vor 12 Jahren 0
Es gibt etwas, das dies tut ... Ich erinnere mich an einen Freund, der Wikipedia analysiert hat ... Ich werde ihn morgen überprüfen Keltari vor 12 Jahren 0

6 Antworten auf die Frage

3
harrymc

Die Software, nach der Sie suchen, kann viele Titel haben, wie "Inhaltsanalyse", "Tag-Cloud" oder "Meta-Tags" und viele weitere, wie "Textanalyse" und "Text-Mining".

Es gibt sehr viele Softwaretools für diese Zwecke, sowohl kostenlos als auch kommerziell.

Ich habe keine persönlichen Erfahrungen mit solchen Tools, aber ein guter Ausgangspunkt sind Text Analysis Tools, die Dutzende solcher Tools auflisten, sowohl kostenlos als auch kommerziell.

Eine weitere solche Liste ist Text Analysis, Text Mining und Information Retrieval Software .

Ich habe mich durch die erste Liste gefiltert, aber keine der freien Optionen beinhaltet viel mehr als eine Sprachanalyse. Ich habe die zweite Liste noch nicht durchgesehen - ich könnte am Ende meine eigene rollen. Brian Bauman vor 12 Jahren 0
2
suweller

Take a look at Rapidminer or Weka

Seeing as its a clients blog, you probably have database access. Download all articles as plaintext and use one of the above programs to deal with the natural language processing questions (1,2,3, and 5).

The number of uses is hard to truly automate since it has to do with automatically determining the meaning of words using the context.

Zählen alle Verwendungen, nicht Benutzer. Vielen Dank für die Vorschläge. Brian Bauman vor 12 Jahren 0
Ich habe falsch gelesen, mein Bad. Für die Verarbeitung natürlicher Sprache sollten Sie dennoch Rapidminer oder Weka auschecken. Das heißt, es sei denn, das Dataset ist riesig, da beide versuchen, es in den Arbeitsspeicher einzupassen suweller vor 12 Jahren 0
2
Laurence

one of the most content analysis software is WordStat designed by Provalis Research

WordStat is a text analysis module for QDA Miner or SimStat. WordStat combines content analysis method by using dictionary approach and many algorithms exploration or various text mining methods. WordStat can apply existing categorization dictionaries to a new text corpus. It also may be used in the development and validation of new categorization dictionaries. When used in conjunction with manual coding, this module can provide assistance for a more systematic application of coding rules, help uncover differences in word usage between subgroups of individuals and assist in the revision of existing coding using KWIC (Keyword In Context) tables. WordStat is specifically designed to study textual information such as responses to open-ended questions, interviews, titles, journal articles, public speeches, electronic communications, etc.

http://provalisresearch.com/products/content-analysis-software/

1
gdelfino

Vielleicht möchten Sie Wolframs Mathematica ausprobieren. Sie müssen etwas programmieren, aber alle Tools, die Sie benötigen, sind vorhanden:

0
Jürgen Strobel

Einige dieser Fragen könnten schnell und unkompliziert über die Google-Suche in Ihrem Blog beantwortet werden (am einfachsten, wenn sie eine eigene Domain hat).

0
music2myear

Zemanta führt Analysen durch und kann Tags und Links vorschlagen. Es ist auch ein WordPress-Plugin.

Einziges Problem: So wie es derzeit steht, muss jedes Postfach manuell geöffnet, ausgewählt und gespeichert werden.

Es gibt jedoch eine Vielzahl von Auto-Tag-Plugins für WordPress. Sie sollten den Plugin-Finder suchen und ein paar versuchen.