DB Data Mining Part 2

Ich habe vor geraumer Zeit schon von meinem DB Datenmining berichtet, dieses wird auch weiterhin durchgefĂŒhrt. Nun ist es bedauerlicherweise auf Grund der inzwischen massiven Datenmenge (> 1 Mio DatensĂ€tze) ziemlich Ressourcenfressend eine Live-Analyse (im Grafana) durchzufĂŒhren und das Laden der Daten dauert inzwischen auch etwas lĂ€nger. Da ich aber auf keinem Fall Daten löschen möchte und auch das Mining nicht beenden möchte, musste ich nun eine Lösung bzw. eine Möglichkeit zur Verbesserung finden.

Elastic Stack

Um die Daten besser und ressourcensparender abfragen zu können habe ich begonnen eine Migration mittels Logstash einzurichten, diese funktionierte fĂŒr die kleinen Tabellen auch verhĂ€ltnismĂ€ĂŸig gut. Diese Daten kann ich nun einerseits direkt im Kibana darstellen oder wie zuvor im Grafana.

NatĂŒrlich dauert auch bei Elastic die Anfragen einen kleinen Augenblick wenn tausende DatensĂ€tze ausgegeben werden, allerdings ist diese trotzdem erheblich schneller als zuvor.

Migrationsprobleme

Wie bereits erwĂ€hnt hat die Migration fĂŒr die kleinen Tabellen ganz gut funktioniert, dies gilt leider nicht fĂŒr die großen Tabellen, welche die Mehrheit der DatensĂ€tze enthalten. Bei diesen bekomme ich Migrationsfehler, welche ich bis heute nicht beheben konnte. NatĂŒrlich kann ich anhand der bereits migrierten DatensĂ€tze eine Analyse durchfĂŒhren, diese sind aber nicht so genau wie zuvor.

Es besteht auch der Plan, die Daten in der Zukunft direkt im Elastic zu speichern und nicht den Umweg der Migration zu gehen, dies ist bisher aber noch nicht der Fall. Sobald ich eine Lösung fĂŒr mein Problem gefunden habe, werde ich dies aber auf jeden Fall angehen. Dann kann ich hoffentlich performanter als bisher auf die DatensĂ€tze zugreifen und diese Analysieren.

Mehr Daten

Im Zuge der Änderung an der Datenspeicherung werde ich auch noch eine Änderung an der Datensammlung durchfĂŒhren. Der Plan ist, zusĂ€tzlich zu den bisherigen Daten auch noch die Positionen (Koordinaten) der Bahnhöfe zu persistieren, um so auch eine Heatmap erzeugen zu können. HierfĂŒr muss ich auch nur winzige Änderungen durchfĂŒhren, da ich diese Daten schon erhalte nur nicht speichere. Sobald all diese Änderungen durchgefĂŒhrt sind, werde ich noch einmal ausfĂŒhrlich ĂŒber die Ergebnisse der Datensammlung berichten und eventuell auch einige bessere Grafiken bereitstellen können.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.