Wie werden verarbeitete Daten gespeichert?

373
bsg

Ich arbeite an einem Projekt mit Twitter-Daten. Ich habe mehrere Hunderttausend Tweets heruntergeladen und in Dateien gespeichert. Die Daten wurden im Json-Format zurückgegeben, und der Stream-Consumer, den ich verwendete, konvertierte sie in Python-Wörterbücher. Daher wurden alle Daten in Textdateien gespeichert (ein Tweet pro Zeile) als Python-Wörterbücher.

Es gibt viele zusätzliche Informationen, daher habe ich ein Python-Skript, das jede Zeile als Diktatur einliest und nützliche Informationen extrahiert. Was wäre der beste Weg, um diese Daten jetzt zu speichern, wenn sie extrahiert wurden? Ich habe es wieder in csv-Dateien ausgedruckt, aber ich hatte einige Probleme damit und bin auf einige Leute gestoßen, die das Gefühl haben, dass dies nicht der beste Weg ist, sie zu speichern.

Was wäre der effektivste Weg, um diese Daten zu speichern? Ich werde darauf zugreifen müssen, um Muster zu finden, ähnliche Elemente abzugleichen usw. Ich dachte daran, eine Datenbank zu verwenden - ist das die beste Option? Gibt es andere, die besser sind?

4

1 Antwort auf die Frage

2
Journeyman Geek

If its just key pair stores, apparently nosql style databases work well - twitter does use these, and they might be a great fit if you need to handle a lot of data with very little structure. You could probably use a traditional rdbms, or maybe an embedded sqlite db if there are more than a simple key pair store and had structured data with relations.

It might also help to understand the weakness of a flat file store (no transaction logging or structure), nosql (no ACID) and a traditional db(bulky, less scalable but well understood and often reasonably fast). With a small non updated set of data, any of them should work

Danke - Ich denke, ich werde versuchen, Hadoop und HDFS zu verwenden. Danke für Ihre Hilfe! bsg vor 11 Jahren 0