Didieji duomenys – neabejotinai viena įtakingiausių pastarojo dešimtmečio tendencijų. Tačiau gauti apčiuopiamą didžiųjų duomenų naudą, įžvalgas, padedančias realiu laiku priimti verslui svarbius sprendimus, įmanoma tik išsprendus duomenų struktūravimo problemą. Įveikti šį svarbiausią duomenų valdymo iššūkį gali padėti net kelios duomenų saugojimo technologijos, sako „Blue Bridge“ infrastruktūros sprendimų vadovas Algirdas Lunys ir vyresnysis sistemų inžinierius Edgar Viršilo.
Visi duomenys virsta didžiaisiais duomenimis
Didžiuosius duomenis paprasčiausia apibrėžti kaip visus duomenis, kuriuos gauname iš įrenginių ir generuojame patys – nuo el. laiškų iki nuotraukų socialiniuose tinkluose.
„Blue Bridge“ infrastruktūros sprendimų vadovas Algirdas Lunys paaiškina, kad didžiuosius duomenis galima apibūdinti kaip duomenis, kurie plečiasi trimis kryptimis: didėja jų apimtis, įvairovė ir kaitos greitis. Tai, pavyzdžiui, reiškia, kad nuo periodinių duomenų pereiname prie realaus laiko duomenų naudojimo; tokius duomenis saugant prireikia jau ne gigabaitų, o terabaitų ir t. t.
Didžiuosius duomenis galima apibūdinti kaip duomenis, kurie plečiasi trimis kryptimis: didėja jų apimtis, įvairovė ir kaitos greitis. Tai, pavyzdžiui, reiškia, kad nuo periodinių duomenų pereiname prie realaus laiko duomenų naudojimo; tokius duomenis saugant prireikia jau ne gigabaitų, o terabaitų ir t. t.
„Didžiųjų duomenų sąvokos centre – prielaida, kad iš esmės bet kokie duomenys yra vertybė. Loginė to seka praktikoje –„išankstinis“ duomenų kaupimas, kai kaupiame duomenis, iki galo nežinodami, ar jų prireiks. Pavyzdžiui, galbūt tam tikra informacija leis nustatyti vartotojų elgesio tendencijas ir atlikti prognozes tik po kelerių metų, tačiau šių duomenų kaupimą turime pradėti jau šiandien – tam, kad įžvalgos, grįstos jų analize, būtų korektiškos, paremtos istorine informacija“, – pasakoja A. Lunys.
Vis dėlto kaupiant bet kuriuos duomenis būtina bent minimali struktūra. Tad duomenų kaupimo etape jau turi atsirasti sistema ir įrankiai, padedantys ne tik kaupti, bet ir ateityje greitai atpažinti, apdoroti ir galiausiai – apibendrinti verslui svarbius duomenis.
Nuo duomenų bazės prie duomenų ežero
Ko gero, pirmoji asociacija, paminėjus duomenų saugojimą, yra duomenų bazės. Kaip pastebi A. Lunys, duomenų bazės iš tikrųjų gali padėti apdoroti kliento užsakymus, sugeneruoti sąskaitą ir t. t. Tačiau duomenys atskirose sistemose turi mažą vertę, be to, duomenų bazės pirmiausia yra skirtos duomenų „įrašymui“, o ne jų analizei. Todėl norint išnaudoti visą duomenų potencialą ir gauti informaciją, leidžiančią pastebėti sudėtingus priežastinius ryšius, reikėtų susipažinti su tokiomis sąvokomis kaip duomenų sandėlis (angl. Data Warehouse) ir duomenų ežeras (angl. Data Lake).
Duomenų bazės pirmiausia yra skirtos duomenų „įrašymui“, o ne jų analizei.
Apibūdindamas pagrindines šių technologijų funkcijas, pašnekovas sako, kad jos abi padeda patogiai saugoti įvairiuose apdorojimo etapuose esančius duomenis.
„Duomenų sandėliai gali padėti atlikti tokius kasdienius darbus kaip mažiausiai parduodamų produktų nustatymas, klientų maržos analizė ir t. t. Apibendrinant – integruoti duomenis iš kelių skirtingų sistemų. Duomenų sandėlius vis dažniau papildo duomenų ežerai, kuriuose galima kaupti netransformuotus, labai įvarius duomenis, tarp jų – ir naujesnių formatų“, – pasakoja „Blue Bridge“ infrastruktūros sprendimų vadovas.
Duomenų sandėliavimas – būtinas, bet reikalaujantis laiko
Duomenų sandėlyje visi duomenys turėtų būti sudėti kaip bibliotekoje – pagal iš anksto numatytą schemą, formatą ir tokiomis formomis, kurios lengviau suprantamos galutiniams naudotojams. Pavyzdžiui, informacija apie operacijas turi būti struktūruojama pagal verslo procesus, tokius kaip pervežimas, pardavimas ar inventoriaus kontrolė.
„Iš čia kyla svarbiausias praktinio duomenų sandėlio naudojimo iššūkis – prieš nukreipiant duomenis į duomenų sandėlį, reikia vienaip ar kitaip juos transformuoti, o tai atima laiko, prarandamas duomenų apdorojimo greitis, be to, paaiškėjus, kad transformuoti ne patys vertingiausi duomenys, visą procesą reikia pradėti iš naujo“, – paaiškina „Blue Bridge“ vyresnysis sistemų inžinierius Edgar Viršilo.
Prieš nukreipiant duomenis į duomenų sandėlį, reikia vienaip ar kitaip juos transformuoti, o tai atima laiko, prarandamas duomenų apdorojimo greitis, be to, paaiškėjus, kad transformuoti ne patys vertingiausi duomenys, visą procesą reikia pradėti iš naujo.
Būtent šie duomenų sandėlio apribojimai paskatino naujausios duomenų saugojimo technologijos – duomenų ežero – atsiradimą.
Duomenų ežerai leidžia greičiau nustatyti duomenų vertę
Duomenų ežeras – tai vieninga saugykla, skirta dideliam skirtingų duomenų kiekiui saugoti jų gimtuoju formatu. Tai reiškia, kad duomenų ežere gali būti saugomi įvairių tipų duomenys – nuo tradicinių veiklos duomenų, tokių kaip „Excel“ lentelės, iki informacijos, surinktos iš įvairių daviklių.
Duomenų ežero privalumas, lyginant su duomenų sandėliu, yra tai, kad nereikia skirti laiko duomenų įsavinimui ir kaupimui – duomenų ežere duomenys gali būti nestruktūruoti ir netransformuoti iki tol, kol nebus žinoma jų vertė.
„Svarbiausias duomenų ežero privalumas, lyginant su duomenų sandėliu, yra tai, kad nereikia skirti laiko duomenų įsavinimui ir kaupimui – duomenų ežere duomenys gali būti nestruktūruoti ir netransformuoti iki tol, kol nebus žinoma jų vertė ir nuspręsta, ar jie bus analizuojami. Todėl su duomenų ežeru gauname mažesnį duomenų vėlavimą, momentinę prieigą prie įvairių tipų duomenų, lengvesnį išplėstinių duomenų analizės scenarijų kūrimą ir galiausiai – taupų didelių duomenų kiekių saugojimą“, – vardija „Blue Bridge“ vyresnysis sistemų inžinierius.
Tam tikra struktūra būtina ir duomenų ežere
Nepaisant greitesnio duomenų pateikimo ir lankstumo, kurį suteikia duomenų ežeras, bent minimalaus duomenų struktūrizavimo išvengti nepavyks ir čia – kitaip duomenų ežeras gali pavirsti duomenų pelke.
„Pavyzdžiui, duomenys gali būti kaupiami pagal savaites, mėnesius, metus, saugumo reikalavimus arba taikant tam tikrą klasifikaciją – pavyzdžiui, vieši duomenys, konfidencialūs duomenys ir t. t. Prieš planuodami duomenų kaupimo sistemą duomenų ežere, turite nuspręsti bent jau tai, kokiu cikliškumu norite duomenis gauti ir talpinti duomenų ežere“, – sako E. Viršilo.
Pirmieji žingsniai link vertę kuriančio duomenų saugojimo
Taigi – nuo ko pradėti didžiųjų duomenų pritaikymą savo verslo tikslams? Pasak E. Viršilo, pirmasis žingsnis, tai – duomenų sandėlio struktūros sudarymas. Šiame etape pats svarbiausias yra vertingiausių duomenų šaltinių nustatymas.
Pirmasis žingsnis – duomenų sandėlio struktūros sudarymas. Šiame etape pats svarbiausias yra vertingiausių duomenų šaltinių nustatymas.
„Antra, įvairesnių duomenų kaupimui patarčiau naudoti duomenų ežerą, o jeigu naudojote duomenų sandėlį jau anksčiau, pirmiausia reikėtų perkelti iš jo archyvinius duomenis į duomenų ežerą, ir tokiu būdu duomenų sandėlyje „įvesti tvarką“. Duomenų ežere taip pat galite pradėti saugoti naujo tipo ar formato duomenis ir lygiagrečiai spręsti dėl jų tinkamumo išsamesnei analizei, perkėlimui į duomenų sandėlį ir t. t. Nepamirškite, kad duomenų ežeras taip pat turi turėti savo struktūrą“, – apibendrina „Blue Bridge“ vyresnysis sistemų inžinierius.
Norint įsitikinti, ar renkami ir analizuojami tikrai vertingiausi duomenys, periodiškai reikėtų atlikti koncepcinius projektus (angl. Proof-of concept). Jie gali padėti pastebėti „nereikalingus“ duomenis arba prijungti papildomų duomenų, kuriuos skirtingais formatais vėliau leidžia saugoti ir panaudoti duomenų ežeras.
Didžiųjų duomenų infrastruktūros projektavimas, diegimas, migravimas, konsolidavimas, dirbtinis intelektas duomenų valdyme – susisiekite su „Blue Bridge“ komanda!