JeFaBePh
Familienseite
Datenverwurstelung mit Kettle
Um Daten aus unterschiedlichen Quellen zu sammeln, zu vergleichen, zu verarbeiten und in unterschiedliche Datenquellen wieder auszugeben eignet sich das Programm Kettle aus der Pentaho Familie sehr gut. Ich habe mich heute damit mal beschäftigt und bin von den Möglichkeiten schwer begeistert.
Folgende Aufgabenstellung habe ich umgesetzt: Daten aus einer Datei lesen, bereinigen und mit vorhandenen Daten aus einer Datenbank vergleichen. Davon Abhängig werden verschiedene Ausgaben erzeugt, welche bei Bedarf weiterbearbeitet werden können.
Gelungen ist dies mit minimalen Programmieraufwand (max. 10 Zeilen Javascript). Für sowas habe ich früher Tonnenweise Perl und Shellcode und beliebig viele "Zwischen"-Dateien benötigt. Jetzt sieht das so aus:
Zu sehen ist hier die Grafische Oberfläche Spoon. Mit Spoon können solche Arbeitsabläufe definiert, getestet und auch ausgeführt werden. Die Abarbeitung solcher Jobs können aber auch über die Kommandozeile oder Cronjobs erledigt werden.
Ein Schwachpunkt ist mir aufgefallen. Kettle unterstüzt ODF als OUTPUT-Format noch nicht. Naja, kann sich ja noch ändern.
