štvrtok, 07 máj 2020 12:00

Starostlivosť o dáta aj počas home office - časť 2. | Príprava datasetov

Pred pristúpením k samotnému čisteniu našich dát s ohľadom na ich výpovednú hodnotu a korektnosť jednotlivých záznamov plynúcu z biznis využitia, je často prvoradé prečistenie technických a významových chýb hromadných údajov obsiahnutých v jednotlivých súboroch dát (datasetoch) tvoriacich naše dátové portfólio.

Pre každý dataset v spoločnosti vieme spravidla priradiť jedného, prípadne viacerých zamestnancov, majúcich vedomosti o jeho pôvode, účele jeho vytvorenia a obsahu, ktorý by mal spĺňať jeho účel (schopnosti vytvoriť užitočnú informáciu). Najčastejším problémom datasetu v spoločnosti je miera chybovosti, ktorú v sebe dokáže nakumulovať počas iterácií cez jednotlivých prispievateľov tvoriacich jeho obsah. Inými slovami, aj keď je účel súboru dát daný, každý si jeho naplnenie môže vysvetliť po svojom, prípadne vytvoriť chybné dáta z časového stresu. Rovnakou mierou môžu k chybovosti prispieť aj rôznorodé vstupné rozhrania/formuláre aplikácií a menenie biznis procesov, na základe ktorých sa následne dáta do datasetu konsolidujú.

Typickým príkladom takejto chybovosti môže byť historický vývoj pracovných zaradení vo firme, kde sa pri jednotlivých zmenách systémov a zaradení počas rokov mohlo nakumulovať niekoľko rozdielnych označení rovnakej pozície: Sekretár, Office manager, Office exceutive assistant, prípadne spojených z chybami Sekretár, Office manažér. Pre vyčistenie a unifikáciu takýchto záznamov naprieč jednou databázovou tabuľkou, by za bežných okolností bola potreba súčinnosti IT vývojára/Analytika schopného alokovať podobné anomálie a následne komunikácia na vlastníkov datasetov, aby navrhli vhodnú korekciu.

Jednoduchý príklad datasetu s nesúladom pozícií:1


Použitie funkcie „Find and group similar text“ pre automatické rozpoznanie podobných textov v stĺpci:

2 3


Po výbere a potvrdení nami požadovanej hodnoty automatická úprava v datasete a zapísanie kroku úpravy (biznis pravidla) na ľavej strane:

3


Prípadne priama celková konsolidácia názvov:

4 2


Výsledok:

5

Práve tento postup výmeny niekoľkých návrhov dokáže viesť k množstvu zdĺhavých a náročných iterácií cez výmeny parciálnych výberov z datasetov, tvorbe jednotlivých biznis pravidiel a spätnou kontrolou či sa takéto čiastkovo vyvinuté biznis pravidlá navzájom neovplyvňujú. Podobný postup môže najme pri situácii ako je práca z domu viesť až k nekonečnému cyklu výmeny návrhov, predlžovaniu celého procesu čistenia a zvyšovania nákladov.

Danému scenáru je možné zabrániť práve cez nastavenie mechanizmu umožňujúceho:

  • Poskytnutie kritických datasetov od Vývojárov/Analytikov k Vlastníkom
  • Objavenie chýb v datasetoch Vlastníkmi
  • Prečistenie datasetov Vlastníkmi
  • Poskytnutie konsolidovaného návodu na prečistenie datasetov od Vlastníkov k Vývojárom/Analytikom
  • Na základe návodu zadefinovať biznis pravidlá a automaticky prečistiť kompletný dataset Vývojármi


Aplikácia by mala okrem kooperácie poskytovať podporu viacerých prostredí s prehľadným GUI navigujúcim používateľov bez nutnosti znalostí vzorcov pre priebežné vyhodnocovanie nezrovnalostí.

Všetky tieto kritériá sú obsiahnuté v jedinom nástroji Talend Data Preparation, fungujúcom v troch režimoch ako:

  • 1. Desktop aplikácia – zdarma dostupná pre čistenie jednoduchým datasetov dennej potreby
  • 2. On-premise – firemná aplikácia, pre zabezpečenia tímovej kooperácie a jednoduchý automatizovaný prenos zadefinovaných biznis pravidiel od Vlastníkov datasetov k Vývojárom
  • 3. Cloud – totožná s on-premise verziou, no bez potreby lokálnej správy a inštalácie, dostupná pre všetkých používateľov z akéhokoľvek miesta.


Viac o funkciách a možnostiach tohto nástroja sa môžete dozvedieť v nasledujúcom videu:

 

 

***

Autor: Ivan Stríček

Kontakt: Táto e-mailová adresa je chránená pred spamovacími robotmi. Na jej zobrazenie potrebujete mať nainštalovaný JavaScript.

Ivan Stríček