Datu ieguve vs datu glabāšana
Datu ieguve un datu glabāšana ir ļoti efektīvas un populāras datu analīzes metodes. Lietotāji, kuriem ir tendence uz statistiku, izmanto datu ieguvi. Viņi izmanto statistiskos modeļus, lai meklētu slēptos datu modeļus. Datu ieguvēji ir ieinteresēti atrast noderīgas attiecības starp dažādiem datu elementiem, kas uzņēmumiem ir visnotaļ izdevīgi. Bet, no otras puses, datu eksperti, kuri var tieši analizēt biznesa dimensijas, mēdz izmantot Datu noliktavas.
Datu ieguve ir pazīstama arī kā zināšanu atklāšana datos (KDD). Kā minēts iepriekš, tā ir datorzinātnes joma, kas nodarbojas ar iepriekš nezināmas un interesantas informācijas iegūšanu no neapstrādātiem datiem. Sakarā ar eksponenciālo datu pieaugumu, it īpaši tādās jomās kā bizness, datu ieguve ir kļuvusi par ļoti svarīgu rīku, lai pārveidotu šo lielo datu bagātību biznesa izlūkošanā, jo dažās pēdējās desmitgadēs šķietami manuāla datu iegūšana ir kļuvusi neiespējama. Piemēram, pašlaik to izmanto dažādām lietojumprogrammām, piemēram, sociālā tīkla analīzei, krāpšanas atklāšanai un mārketingam. Datu ieguve parasti nodarbojas ar četriem šādiem uzdevumiem: klasterizēšanu, klasifikāciju, regresiju un asociāciju. Klasterēšana identificē līdzīgas grupas no nestrukturētiem datiem. Klasifikācija ir mācīšanās noteikumi, kurus var izmantot jauniem datiem, un parasti tie ietver šādus soļus: datu priekšapstrāde, modelēšanas izstrāde, mācīšanās / funkciju atlase un novērtēšana / validācija. Regresija ir funkciju atrašana ar minimālām kļūdām datu modelēšanā. Un asociācija meklē sakarības starp mainīgajiem. Datu ieguve parasti tiek izmantota, lai atbildētu uz jautājumiem, piemēram, kas ir galvenie produkti, kas nākamajā gadā varētu palīdzēt gūt lielu peļņu Wal-Mart?
Kā minēts iepriekš, datu analizēšanai tiek izmantota arī datu glabāšana, taču atšķirīgas lietotāju kopas un prāts ir nedaudz atšķirīgs. Piemēram, ja runājam par mazumtirdzniecības nozari, datu noliktavu lietotāji vairāk rūpējas par to, kādi pirkumu veidi ir populāri klientu vidū, tāpēc analīzes rezultāti var palīdzēt klientam, uzlabojot klientu pieredzi. Bet datu ieguvēji vispirms izvirza hipotēzi, piemēram, par to, kuri klienti pērk noteikta veida produktus un analizē datus, lai pārbaudītu hipotēzi. Datu uzglabāšanu varētu veikt liels mazumtirgotājs, kurš sākotnēji savus veikalus krāj ar tāda paša izmēra izstrādājumiem, lai vēlāk uzzinātu, ka Ņujorkas veikali pārdod mazāka izmēra krājumus daudz ātrāk nekā Čikāgas veikalos. Tātad, apskatot šo rezultātu, mazumtirgotājs var uzglabāt Ņujorkas veikalu ar mazāku izmēru, salīdzinot ar Čikāgas veikaliem.
Tātad, kā jūs varat skaidri redzēt, šie divi analīzes veidi ar neapbruņotu aci šķiet vienādi. Abas bažas rada peļņas palielināšana, pamatojoties uz vēsturiskajiem datiem. Bet, protams, ir galvenās atšķirības. Vienkārši izsakoties, datu ieguve un datu glabāšana ir paredzēta dažāda veida analītikai, bet noteikti - dažāda veida lietotājiem. Citiem vārdiem sakot, Data Mining meklē korelācijas, izkopē statistiskās hipotēzes pamatojumu. Bet, Datu glabāšana sniedz atbildi uz salīdzinoši plašāku jautājumu, un tā tālāk sadala un sadala datus, lai atpazītu uzlabojumu veidus nākotnē.