Datu noliktava ir sistēma, kas paredzēta datu glabāšanai un organizēšanai centrālajās krātuvēs, ieskaitot datus no citiem avotiem. Tā ir biznesa inteliģences pamatkoncepcija relāciju datu bāzes modeļos, kurā tiek izmantotas analītiskās metodes biznesa datu integrēšanai centrālajā datu bāzē.
Datu glabāšanā tiek izmantoti divi izplatīti arhitektūras modeļi:
Abi ir parastie daudzdimensiju datu bāzu modeļi, kurus izmanto lielu datu bāzu vajadzību apmierināšanai analītiskos nolūkos reālās datu noliktavās.
Mēs sniedzam objektīvu salīdzinājumu starp abiem, lai labāk saprastu, kurš no tiem ir labāks par otru.
Tas ir visizplatītākais un vispāratzītākais arhitektūras modelis, ko izmanto, lai izveidotu datu noliktavas un datu kartes, kurās dati tiek sakārtoti faktos un dimensijās. Tas ir vienkāršākais arhitektūras modelis, kurā viena faktu tabula tiek izmantota, lai atsauktos uz vairāku dimensiju tabulām, imitējot zvaigžņu zīmējumu.
Kā norāda nosaukums, diagramma atgādina zvaigzni ar faktu tabulu centrā un no tās izstarojošām daudzdimensiju tabulām, veidojot zvaigznei līdzīgu rakstu.
Tas ir arī pazīstams kā Star Join Schema, un tajā visi dimensijas atribūti tiek saglabāti vienā denormalizētā faktu tabulā, lai ātri pārvietotos pa lielām daudzdimensionālām datu kopām, kas nodrošina ātru vaicājuma reakcijas laiku.
Tas ir zvaigznes shēmas pagarinājums ar pievienotajām funkcijām. Atšķirībā no zvaigznes shēmas, sniegpārslu shēmā dimensiju tabulas tiek normalizētas vairākās saistītās tabulās.
Arhitektūras modelis attēlo loģisku tabulas izvietojumu daudzu attiecību attiecību hierarhijā, kur vairāku dimensiju tabulas tiek normalizētas apakšdimensiju tabulās, kas atgādina sniegpārsliņai līdzīgu modeli, no tā arī nosaukums.
Tā ir sarežģītāka zvaigznītes shēmas versija ar vairāk apvienojumiem starp dimensiju tabulām, un tas atspoguļo lēno apstrādes laiku, lai iegūtu datus, kas nozīmē lēnu vaicājuma reakcijas laiku. Tas samazina datu dublēšanos, kas savukārt uzlabo vaicājuma veiktspēju.
Relāciju datu bāzēs zvaigžņu shēma ir vienkāršākais arhitektūras modelis, ko izmanto datu noliktavu un daudzdimensiju datu karšu izstrādei. Kā norāda nosaukums, modelis atgādina zvaigzni ar punktiem, kas izstaro no centra, kas nozīmē, ka faktu tabula ir centrs, un punkti ir dimensiju tabulas. Tāpat kā citi dimensiju modeļi, tas sastāv no datiem faktu un dimensiju veidā. Savukārt sniegpārsliņas shēma ir sarežģītāks arhitektūras modelis, kas attiecas uz daudzdimensionālu datu bāzi ar loģisku tabulu izvietojumu sniegpārsliņas veidā..
Sniegpārsliņu shēma ir diezgan līdzīga zvaigžņu shēmai, izņemot to, ka tai var būt vairāk nekā vienas dimensiju tabulas, kuras tālāk tiek normalizētas vairākās saistītās tabulās, kuras sauc par apakšdimensiju tabulām. Tas attēlo vairākus attiecību līmeņus, kas veidojas sniegpārsliņas modelī. Tomēr zvaigžņu shēma visus saistītos dimensijas atribūtus glabā vienā denormalizētā dimensiju tabulā, kas ļauj viegli saprast un apstrādāt vienkāršākus vaicājumus..
Dimensiju tabulā nedrīkst būt relatīvu datu bāzes modeļu rindu dublikāti tikai tāpēc, ka tā var radīt neskaidrības izguvē. Katrā tabulā jābūt kolonnai vai kolonnu kombinācijai, ko sauc par primāro atslēgu, kas unikāli identificē visus tabulas ierakstus. Ārzemju atslēga ir kolonna vai kolonnu grupa, kas nodrošina saikni starp divām tabulām. Zvaigžņu shēmā katrā dimensiju tabulā ir galvenā atslēga, kas faktu tabulā ir saistīta ar svešu atslēgu. Biznesa hierarhiju sniegpārsliņu shēmā attēlo primārās atslēgas / svešas atslēgas attiecības starp dimensiju tabulām.
Galvenā atšķirība starp diviem relāciju datu bāzes modeļiem ir normalizēšana. Zvaigžņu shēmā esošās dimensiju tabulas netiek normalizētas, tas nozīmē, ka biznesa modelis dimensiju tabulu glabāšanai izmantos salīdzinoši vairāk vietas, un vairāk vietas nozīmē liekākus ierakstus, kas galu galā radītu neatbilstību. Snowflake shēma, no otras puses, samazina datu dublēšanos, jo tiek normalizētas dimensiju tabulas, kas veido daudz mazāk liekus ierakstus. Biznesa hierarhija un tās dimensijas tiek saglabātas, izmantojot atsauces integritāti, kas nozīmē, ka attiecības var patstāvīgi atjaunināt datu noliktavās.
Zvaigžņu shēmai ir mazāk savienojumu starp dimensiju tabulu un faktu tabulu, salīdzinot ar sniegpārslas shēmu, kurai ir vairākas savienošanas, kas rada mazāku vaicājuma sarežģītību. Tā kā zvaigznes shēmas dimensijas ir saistītas caur centrālo faktu tabulu, tai ir skaidri savienojuma ceļi, kas nozīmē ātru vaicājuma reakcijas laiku un ātrs reakcijas laiks nozīmē labāku sniegumu. Sniegpārsliņu shēmai ir lielāks savienojumu skaits, tāpēc ir garāki atbildes reakcijas laiki, kas rada sarežģītākus vaicājumus, kas galu galā mazina veiktspēju.
Abi ir visizplatītākie un plaši izmantotie arhitektūras modeļi, kurus izmanto datu bāzu noliktavu un datu karšu izstrādei. Tomēr katram uzņēmējdarbības modelim ir sava taisnīga plusu un mīnusu daļa. Lai gan zvaigžņu shēma ir vienkāršākais daudzdimensiju modelis, ko izmanto, lai datus sakārtotu faktos un dimensijās, tas ir ideāli piemērots tādu datu karšu izstrādei, kurās iesaistītas mazāk sarežģītas attiecības. Sniegpārsliņas shēma ir loģisks tabulas attēlojums daudzdimensiju datu bāzē, kurā izmēri tiek glabāti apakšdimensiju tabulās. Galvenā atšķirība starp abiem ir normalizēšana. Dimensiju tabulas sniegpārsliņu shēmā ir pilnībā normalizētas vairākās uzmeklēšanas tabulās, turpretī zvaigžņu shēmā dimensiju tabulas tiek normalizētas vienā centrālā faktu tabulā..