KDD vs datu ieguve
KDD (zināšanu atklāšana datu bāzēs) ir datorzinātnes nozare, kurā ietilpst rīki un teorijas, kas palīdz cilvēkiem iegūt noderīgu un iepriekš nezināmu informāciju (t.i., zināšanas) no lielām digitalizētu datu kolekcijām. KDD sastāv no vairākiem posmiem, un datu ieguve ir viens no tiem. Datu ieguve ir īpaša algoritma piemērošana, lai no datiem iegūtu modeļus. Neskatoties uz to, KDD un datu ieguve tiek izmantoti savstarpēji aizstājami.
Kas ir KDD?
Kā minēts iepriekš, KDD ir datorzinātnes nozare, kas nodarbojas ar iepriekš nezināmas un interesantas informācijas iegūšanu no neapstrādātiem datiem. KDD ir viss process, kurā mēģina izprast datus, izstrādājot atbilstošas metodes vai paņēmienus. Šis process nodarbojas ar zema līmeņa datu kartēšanu citās formās, kas ir kompaktas, abstraktas un noderīgas. Tas tiek panākts, izveidojot īsus pārskatus, modelējot datu ģenerēšanas procesu un izstrādājot paredzamos modeļus, kas var paredzēt turpmākos gadījumus. Sakarā ar eksponenciālo datu pieaugumu, jo īpaši tādās jomās kā bizness, KDD ir kļuvis par ļoti svarīgu procesu, lai pārveidotu šo lielo datu bagātību biznesa izlūkošanā, jo dažās pēdējās desmitgadēs šķietami manuāla datu iegūšana ir kļuvusi neiespējama. Piemēram, pašlaik to izmanto dažādām lietojumprogrammām, piemēram, sociālā tīkla analīzei, krāpšanas atklāšanai, zinātnei, investīcijām, ražošanai, telekomunikācijām, datu tīrīšanai, sportam, informācijas iegūšanai un lielākoties mārketingam. KDD parasti izmanto, lai atbildētu uz jautājumiem, piemēram, kādi ir galvenie produkti, kas nākamajā gadā varētu palīdzēt gūt lielu peļņu Wal-Mart ?. Šim procesam ir vairākas darbības. Sākumā tiek attīstīta izpratne par lietojumprogrammas domēnu un mērķi, pēc tam izveidojot mērķa datu kopu. Tam seko datu tīrīšana, priekšapstrāde, samazināšana un projekcija. Nākamais solis ir datu ieguves izmantošana (paskaidrots zemāk), lai identificētu modeli. Visbeidzot, atklātās zināšanas tiek apvienotas, vizualizējot un / vai interpretējot.
Kas ir datu ieguve?
Kā minēts iepriekš, datu ieguve ir tikai solis kopējā KDD procesā. Ir divi galvenie datu ieguves mērķi, ko nosaka lietojumprogrammas mērķis, un tie ir verifikācija vai atklāšana. Pārbaude ir lietotāja hipotēzes par datiem pārbaude, bet atklāšana automātiski atrod interesantus modeļus. Ir četri galvenie datu ieguves uzdevumi: klasterizācija, klasifikācija, regresija un asociācija (apkopojums). Klasterēšana identificē līdzīgas grupas no nestrukturētiem datiem. Klasifikācija ir mācību noteikumi, kurus var izmantot jauniem datiem. Regresija ir funkciju atrašana ar minimālām kļūdām datu modelēšanā. Un asociācija meklē sakarības starp mainīgajiem. Pēc tam jāizvēlas konkrētais datu ieguves algoritms. Atkarībā no mērķa var izvēlēties dažādus algoritmus, piemēram, lineāro regresiju, loģistisko regresiju, lēmumu kokus un Naïve Bayes. Pēc tam tiek meklēti interešu modeļi vienā vai vairākās reprezentācijas formās. Visbeidzot, modeļi tiek novērtēti, izmantojot vai nu paredzamo precizitāti, vai saprotamību.
Kāda ir atšķirība starp KDD un datu ieguvi?
Lai arī abi termini KDD un Data Mining tiek plaši izmantoti savstarpēji aizstājami, tie attiecas uz diviem saistītiem, taču nedaudz atšķirīgiem jēdzieniem. KDD ir vispārējs zināšanu ieguves process no datiem, savukārt Datu ieguve ir solis KDD procesa iekšienē, kas nodarbojas ar datu modeļu identificēšanu. Citiem vārdiem sakot, datu ieguve ir tikai īpaša algoritma piemērošana, kura pamatā ir KDD procesa vispārējais mērķis.