Automatisches Parsen von Zitiertext in akademischen Referenzen

7815
Alistair Knock

Gibt es eine Software (oder einen Pseudo-Code), die ein Textstück automatisch scannen kann (entweder in das Werkzeug eingefügt oder aus einer .doc / .pdf-Datei gelesen) und Zitationsdaten unter Verwendung von Standardformaten identifizieren können? Die Daten werden dann in ihre einzelnen Felder aufgeteilt und in XML, CSV oder einem anderen strukturierten Datenformat exportiert. Ich habe mir Cb2Bib angesehen, aber es war nur in der Lage, das Jahr aus den Harvard-Verweisen zu extrahieren, was unzureichend ist.

16
Möchten Sie den Text selbst oder nur den Verweisbereich scannen? innaM vor 15 Jahren 0
Nur die Referenzen - es wäre wahrscheinlich ein Dokument, das persönliche Veröffentlichungen enthält. Alistair Knock vor 15 Jahren 0

8 Antworten auf die Frage

4
KEG

Werfen Sie einen Blick auf diese Liste der Zitationsparser, die XML aus Eingabetext generieren können:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (im Wartungsmodus ab 1. August 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

Mit Freecite können Sie einen curlBefehl verwenden, um Zitate wie folgt einzureichen (in PHP):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create"; $xmloutput = exec( $cmd ); 
2
Ash

Versuchen Sie es mit einem Tool wie Regex Buddy oder Expresso .

Wenn Sie kein Programmierer sind, können reguläre Ausdrücke ein wenig einschüchternd sein, aber sie sind wirklich nicht so schwer, besonders mit einem anständigen Werkzeug wie einem der oben genannten.

Hier ein Beispiel für jemanden, der reguläre Ausdrücke zum Extrahieren von Zitaten verwendet:

Zitation analysiert den regulären Ausdruck

2
Wouter

Zur Zeit (2017) scheint das aktivste Open-Source-Projekt Anystyle Parser (letzte Version 07-2016) zu sein. Es kann über ein Webinterface, eine API oder als RubyGem heruntergeladen werden.

Sie erwähnen auf ihrer Website ausdrücklich, dass die Implementierung von ParsCit (letzte Version 2013?) Und FreeCite (letztes Commit 2009) inspiriert ist.

Bilden Sie auch ihre Website:

AnyStyle Parser verwendet leistungsstarke Heuristiken für das maschinelle Lernen, die auf bedingten Zufallsfeldern basieren und von jedem mit unserem integrierten Editor trainiert werden können.

Das ist ein wirklich cooles Feature, das macht die interessanteste Implementierung (imho). Das Training scheint ziemlich unkompliziert zu sein, wie in der API-Dokumentation beschrieben . Sie geben nur einige manuell korrigierte Ergebnisse an und führen den Anystyle.parser.trainBefehl aus. Ich bin nicht sicher, ob ParsCit und FreeCite dies ebenfalls unterstützen, aber wenn dies nicht der Fall ist, scheint mir dies ein großer Funktionsunterschied zu sein.

Mit Ausnahme von Anystyle Parser werden sie alle in der aktuell am besten bewerteten Antwort erwähnt. Was zeichnet sie eigentlich aus? Was wären die Vor- oder Nachteile der ursprünglichen Frage? Seth vor 7 Jahren 0
Ach ja. Ich werde meine Antwort bearbeiten und verbessern. Danke für das Aufzeigen. Wouter vor 7 Jahren 0
Sieht aus, als wäre es jetzt tot. expert vor 6 Jahren 0
@expert: Es ruht sich aus :) Ich habe mit dem Entwickler eine E-Mail geschrieben, während ich versuchte, die Quelle unter Windows zu kompilieren (funktioniert jetzt). Er plant, 2018 ein Remake zu geben, um neue Funktionen hinzuzufügen, wie das Volltext-Parsen von Papieren. Wouter vor 6 Jahren 0
@Wouter hat er jemals klar gemacht, wie er unter Windows kompiliert werden kann? Sehr interessiert auch das. Brandon vor 6 Jahren 0
@ Brandon: Ich habe hier ein HOWTO gepostet: https://github.com/inukshuk/wapiti-ruby/issues/3 Wouter vor 6 Jahren 1
Das sieht gut aus, danke! Als jemand, der noch nie Rubin berührt hat, wird es in der Tat sehr hilfreich sein. Brandon vor 6 Jahren 1
1
sblair

Mendeley sollte das können. Es kann PDFs importieren und die Metadaten dann nach BibTeX, RIS und EndNote XML exportieren. Es kann kostenlos heruntergeladen werden und ist plattformübergreifend.

Edit: Ich habe das an ein paar Dokumenten getestet. Der PDF-Import scheint für Referenzen, die richtig formatiert sind, gut zu funktionieren. Für ein Dokument, das ich mit LaTeX erstellt habe, werden alle Verweise mit dem Autor in der Form "Smith, J." oder "J. Smith" usw. wurden gut importiert. Wenn der Autor eine Firma ist (ein einzelnes Wort) oder die Referenz unvollständig ist, funktioniert sie nicht so gut. Die extrahierten Referenzen können einfach bearbeitet und nach BibTeX usw. exportiert werden.

"Diese Funktion wurde in Mendeley 0.9.7 entfernt, da sie eine beträchtliche Menge an Ressourcen verbrauchte (Client- und Serverseite), ohne einen ausreichenden Wert bereitzustellen. Wir planen, sie in Zukunft in verbesserter Form wieder einzuführen." ...... http://feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/834313-version-0-9-7-does-not-extract-references-from-the iceman vor 14 Jahren 2
1
Kaypro II

Ich habe gesehen, wie ein Westlaw-Programm das für legale Zitate getan hat, aber wahrscheinlich suchen Sie nicht danach. Der Referenz-Manager könnte so etwas für akademische Formate tun, aber ich habe es noch nie verwendet.

1
anton

Versuchen Sie es mit http://www.crossref.org/guestquery/#stqsearch

Dieser kann Ihren Referenztext automatisch parsen und bietet einen Link zu einem Online-Artikel.

0
Abhinav

Zotero ist ein Plugin für Firefox, das dies für Webinhalte tut. Nicht sicher, ob es ein ähnliches Werkzeug für Dokumente / PDFs gibt

Ich weiß, dass dies nicht genau das ist, wozu Zotero bestimmt ist, aber wenn Sie Firefox auf eine Textdatei oder eine HTML-Datei mit den relevanten Daten verwiesen haben, erkennt Zotero möglicherweise die Referenzen und dann können Sie es der Zotero-Bibliothek hinzufügen und exportieren ganze Bibliothek in beliebigem Format (ich weiß, dass Zotero eine Reihe von Formaten unterstützt). Dies wäre jedoch für eine große Anzahl von Dateien schmerzhaft. nedned vor 15 Jahren 1
Ich sehe nicht, wie Zotero das macht, was das OP verlangt. Ich habe es installiert, aber es scheint keine Möglichkeit zu geben, eine Referenz zu analysieren. Rikki vor 9 Jahren 0
Zotero analysiert Zitate von speziell codierten Websites, nicht aus normalem Text. Ochado vor 8 Jahren 0
0
Dav Clark

Dies gehört wahrscheinlich eher als Kommentar zu @Abhinav, aber zotero behandelt definitiv nur strukturierte Daten, wie Sie es hier finden würden:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

Ein interessanter Hack könnte der Versuch sein, ein Programm zu schreiben, das jede Anführungszeichen als Suchabfrage in Ihrer bevorzugten Datenbank verwendet, und dann etwas wie zotero verwendet, um die Ref-Informationen zu generieren. Sie können auch strukturierte Informationen von Diensten wie citeUlike herunterladen. Lassen Sie mich wissen, wenn Sie am Ende so etwas tun! (setzen Sie es auf Github, wenn Sie dies tun;).