Adatmigrációs projektek adattisztítási folyamatainak támogatása a KNIME Analytics Platform segítségével
Az adatmigrációs projektek során sok esetben nem történik meg az adatok tisztítása, egyszerűen azért, mert nem áll rendelkezésre elegendő, képzett erőforrás. Ezért egy kísérleti projektben azt vizsgáltuk meg, hogy milyen eszközzel lehetne fejlesztői ismeretek nélkül hatékonyan támogatni az adatmigrációs projektek során az adattisztítási feladatokat.

Áttekintés
Cégcsoportunk, az Inovivo tagja, a MINDSPIRE Consulting adatmigrációs szolgáltatásokat nyújt banki, pénzintézeti ügyfelei számára. Sikeres ETL projektjeiken megszerzett tapasztalataikra építve alakították ki adatmigrációs módszertanukat és eszközrendszerüket.
Cégünk, a Onespire Zrt. pedig a Data Science (DS) szolgáltatásunk révén érintett az adattisztítási tevékenységekben, ezért közös kísérleti projektünkben most ennek eszköztárát tekintettük át, a migrációs projekteken felmerülő adattisztítási igények lefedése érdekében.
Az adatmigrációs projektek adattisztítási feladatai
Az adatmigrációs projekteken sokféle adattisztasági probléma merülhet fel az egyszerű elírásoktól az összetett adatkonzisztencia problémákig.
Tapasztalataink alapján az adatmigrációs projekteken az adattisztasági feladatok sok esetben azért nem kerülnek végrehajtásra, mert nem állnak rendelkezésre olyan szakértők, akik ezt a komplex feladatot el tudnák látni.
Az ilyen jellegű adattisztítási feladatok azért is kihívást jelentenek, mert egyediek, tehát a korábban kialakított megoldások, folyamatok nem használhatók változtatás nélkül egy másik projekten. Ezért az adatminőség ellenőrzése után egy testreszabott koncepciót kell kialakítani az adott környezetre.
Data Science eszközök alkalmazása adattisztítási projekteken
Az egyik kérdés számunkra az volt, hogy a hagyományos adatmigrációs megoldások mellett a Data Science eszközök használhatók-e az ilyen projektek végrehajtása során az adattisztítási feladatok támogatására.
Ezzel kapcsolatban a KNIME Analytics Platformra esett a választásunk, mivel ennek egyszerű a használata, nem igényel programozói tudást, illetve számos olyan speciális funkcióval rendelkezik, amely kifejezetten alkalmas az adattisztítási feladatok megoldására.
A KNIME Analytic Platform egy ingyenes, nyílt forráskódú adatelemző, jelentéskészítő és integrációs platform. Az eszköz hatékonyan támogatja az adatkinyerés – adat transzformálás – adatbetöltés (ETL) folyamatokat.
A megoldás százezer fős felhasználói közösséggel rendelkezik, akik az adatmigráció mellett adattisztításra, algoritmus tanításra, prediktív analitikára, interaktív vizuális megjelenítésre és riportok készítésére is használják a szoftvert.
A KNIME az adatmintázatok azonosításában erős, a rejtett információk kiaknázásával támogatja az üzleti döntéseket. Használatához nem szükséges fejlesztői tudás, a felületen egy teljes folyamat kialakítható a különböző elemi egységek, az úgynevezett node-ok mozgatásával.
A másik kérdés pedig az volt, hogy a Data Science módszertana mennyiben feleltethető meg az adatmigrációs projektek elvárásainak.
Itt nyilvánvaló volt, hogy a Data Science számos olyan szempontot is figyelembe vesz, amelyek az adatmigrációs projekteken nem relevánsak. Ezek közé tartozik többek között a skálázás és a normalizálás is. Azonban sok olyan építőelem is létezik, amelyet könnyen át lehet ültetni az adatmigrációs módszertanba. Ilyen például a hiányzó értékek pótlása, a duplikátumok eltávolítása, valamint a típuskonverzió is.
A MINDSPIRE Consultinggal közös kísérleti projektünkben tehát a KNIME segítségével hoztunk létre egy adattisztítási mintafolyamatot annak érdekében, hogy a koncepciónkat ellenőrizzük.
A KNIME adattisztítási projektünk áttekintése
A kísérleti projekt célja annak kiderítése volt, hogy a KNIME alkalmazható-e egy adatmigrációhoz kapcsolódó adattisztítási folyamat támogatására. A KNIME platform nagy előnye az egyszerű használat mellett a rugalmasság. Egy létrehozott munkafolyamaton könnyen és gyorsan lehet változtatni új lépések beillesztésével vagy a korábbi lépések cseréjével, konfigurálásával. Hátránya, hogy nagyobb mennyiségű adat esetén performancia problémákkal szembesülhetünk az ingyenes verzió esetén.
A KNIME workflow felépítése
A projekt során létrehozott munkafolyamat egy tíz rekordból álló ügyféltörzs adattisztítását célozta és négy különálló feladatból állt:
- Adattisztító lépes meghatározása a Data Science módszertan alapján.
- Mintaadatbázis kiválasztása vagy felépítése.
- Workflow felépítése a KNIME workbench segítségével.
- Tesztelés és javítás iteratív folyamata.
A munkafolyamat egy limitált elemszámú, szándékosan hibás ügyféladatokat tartalmazó adatkörön futott le.
A kialakított KNIME munkafolyamat
Tapasztalatok
A MINDSPIRE Consulting szakértőivel közösen végrehajtott adattisztítási kísérleti projektünk alátámasztotta azt a feltételezésünket, hogy a Data Science szakterület által meghatározott és alkalmazott eljárások, illetve az adattisztítási feladatok során felhasznált, többnyire ad-hoc megoldások között sok közös pont van.
Ennek megfelelően kijelenthető, hogy kifejezetten javasolt a Data Science eszközökre és módszertanra vonatkozó meglévő tapasztalatokat és tudást felhasználni az adatmigrációs projektek adattisztítási feladatainak tervezése és végrehajtása során.
Eddigi ismereteink alapján a KNIME jól használható az adattisztító funkció tervezése, felépítése és tesztelése kapcsán, azonban egy igazán hatékony adattisztítási megoldást egy fejlett programnyelvben kialakított önálló modullal lenne kialakítani.
A KNIME további előnye, hogy programozói ismeretek nélkül is lehetővé teszi az adatok rejtett mintázatainak felismerését és elemzését, így a jellemzően erőforrás hiányos projekteken lehetővé teszi további munkatársak bevonását is a feladatokba.
Adatmigrációs projektek adattisztítási folyamatainak támogatása a KNIME Analytics Platform segítségével
Szerző: Erdész Ákos
Onespire Data Science és Analytics szolgáltatások

Tekintse meg további bejegyzéseinket!
SAP RISE konferencia 2023
Beszámoló cégünk a Digitális Transzformációs napok eseménysorozat SAP RISE 2023 konferencia első napján tartott előadásáról.
Onespire és Mindspire közös síelés 2023 – Ausztria
A hagyományokat folytatva idén a Onespire és a Mindspire közös síelést szervezett Kreischbergbe.
Onespire All-Staff Meeting 2023
A hagyományosan megrendezésre kerülő évindító Onespire eseménynek idén a Larus Étterem és Rendezvényközpont adott otthont.