Starpība starp HBase un stropu

Gan HBase, gan Hive ir uz Hadoop balstītas datu noliktavu struktūras, kas ievērojami atšķiras pēc tā, kā tās glabā un vaicā datus. Izmantojot tradicionālos datu bāzes pārvaldības rīkus, milzīgu tīmekļa datu pārvaldība un apstrāde kļūst arvien grūtāka. Šajā vietā HBase nonāk pie attēla. HBase ir vēlama izvēle liela datu apjoma apstrādei. Piemēram, ja jums ir jāfiltrē milzīgs e-pastu veikals, lai to izvilktu revīzijai vai kādam citam mērķim, tas būs ideāls HBase lietošanas gadījums. Hive, no otras puses, vairāk līdzinās tradicionālajai datu noliktavas ziņošanas sistēmai, kas darbojas virs Hadoop. Hive piedāvā SQL līdzīgu vaicājumu valodu, kas ļauj veikt vaicājumus daļēji strukturētajos datos, kas glabājas Hadoop. Tas prasa nevajadzīgas pūles, lai nāktos rakstīt MapReduce kodu. Lai gan gan HBase, gan Hive tiek izmantoti kā datu krātuves nestrukturētu datu glabāšanai, tie ir atšķirīgi.

Kas ir Hbase?

HBase ir atvērtā pirmkoda, nesaistīta datu bāzes pārvaldības sistēma, kuru iedvesmojusi Google Big Table arhitektūra un rakstīta Java. HBase pamatā ir uz kolonnām orientēta, izplatīta NoSQL datu bāze, kas darbojas virs Hadoop izplatītās failu sistēmas (HDFS). To ir izstrādājuši un izstrādājuši daudzi inženieri Apache Software Foundation ietvaros. Tas atrodas Apache Hadoop, un to darbina kļūmēm izturīga izkliedēta faila struktūra, kas pazīstama kā HDFS. Tas nodrošina veidu, kā uzglabāt nelielas datu kopas, kas ir izplatītas lielu datu izmantošanas gadījumos. Tas ļauj ātri nolasīt nejaušas piekļuves datus no liela datu apjoma, pamatojoties uz galvenajām vērtībām. Tomēr tas nav paredzēts datu apkopošanai.

Kas ir strops?

Hive nav tieši datu bāze, bet gan datu glabāšanas pakotne, kas izveidota uz Hadoop. Hive ir atšķirīga tehnoloģija nekā HBase; tas strukturē datus tabulas, kuras var apvienot, apkopot un veikt vaicājumus, izmantojot vaicājuma valodu ar nosaukumu Hive Query Language (HQL), kas ir ļoti līdzīga SQL, ko izmanto lielu datu pakešu apstrādei. Tas ļauj jums veikt vaicājumus par daļēji strukturētajiem datiem, kas tiek glabāti Hadoop un kas galu galā tiek pārvērsti par MapReduce darbu, kas tiek izpildīts vai nu lokāli, vai izkliedētā MapReduce klasterī. Hive pamatā ir Hadoop datu noliktavu sistēma, kas atvieglo datu apkopošanu, ad-hoc vaicājumus un lielu HADoop saderīgās failu sistēmās glabātu datu kopu analīzi. Datus var lasīt un rakstīt no Hive un HBase un otrādi. Tomēr to nevar izmantot datu apstrādei reāllaikā.

Atšķirība starp HBase un Hive

Tehnoloģijas

- Lai gan HBase un Hive ir uz Hadoop balstītas datu noliktavu struktūras, ko izmanto liela datu apjoma glabāšanai un apstrādei, tās ievērojami atšķiras pēc tā, kā tās glabā un vaicā datus. HBase principā ir uz kolonnām orientēta, izplatīta NoSQL datu bāze, kas darbojas virs Hadoop izplatītās failu sistēmas (HDFS) un nodrošina kļūmēm tolerantu veidu, kā uzglabāt mazas datu kopas, kas ir izplatītas lielos datu izmantošanas gadījumos. Hive, no otras puses, nav precīzi datu bāze, bet gan datu glabāšanas pakotne, kas izveidota uz Hadoop. Strops ir vairāk kā tradicionālā datu noliktavu ziņošanas sistēma.

Arhitektūra

- HBase ir NoSQL datu bāze un Google lielā tabulas arhitektūras atklātā pirmkoda ieviešana, kas atrodas uz Apache Hadoop un kuru darbina kļūmēm izturīga izkliedētā faila struktūra, kas pazīstama kā HDFS. Tas ir pielāgojams atmiņas risinājums, kas paredzēts praktiski bezgalīgam datu apjomam. Tā ir datu glabāšanas arhitektūra, ko izmanto nestrukturētu datu glabāšanai. Hive, no otras puses, ir SQL dzinējs, kas izveidots uz HDFS virsotnes, un iekšēji piesaista MapReduce, ļaujot HDFS glabāto datu vaicājumiem, izmantojot SQL līdzīgu vaicājumu valodu ar nosaukumu HQL (Hive Query Language).

Izmantojiet

- HBase tiek izmantota, lai izveidotu lētus, elastīgus un viegli kopjamus flīžu slāņa pakalpojumus - uz Hadoop balstītu ģeogrāfiskās informācijas sistēmu (HBGIS) - masīvas datu glabāšanas vajadzībām. Tas ir diska kolonnu glabāšanas formāts, kas nodrošina veidu, kā uzglabāt nelielas datu kopas, kas ir izplatītas lielu datu izmantošanas gadījumos. Tas ļauj ātri nolasīt nejaušas piekļuves datus no liela datu apjoma, pamatojoties uz galvenajām vērtībām. Hive, no otras puses, ir SQL vaicājumu standarts par datu petabaitiem Hadoop un nodrošina SQL līdzīgu vaicājumu valodu ar nosaukumu HQL, lai veiktu vaicājumus Hadoop klasterī glabātajiem datiem..

HBase pret stropu: salīdzināšanas tabula

Kopsavilkums

Lai gan HBase un Hive ir uz Hadoop balstītas datu noliktavu struktūras, ko izmanto liela datu apjoma glabāšanai un apstrādei, tās ievērojami atšķiras pēc tā, kā tās glabā un vaicā datus. HBase ir uz kolonnām orientēta datu bāzes pārvaldības sistēma, ko izmanto apjomīgai datu glabāšanai, un tā nodrošina veidu, kā uzglabāt nelielas datu kopas, kas ir izplatītas vairākos lielos datu izmantošanas gadījumos. Hive, no otras puses, vairāk līdzinās tradicionālajai datu noliktavas atskaišu sistēmai, kas veidota virs Hadoop, ko izmanto, lai palaistu apstrādi caur grafiku darbiem un pēc tam rezultātus ielādētu kopsavilkuma tipa tabulā, kuru klienta lietojumprogrammas varētu turpmāk uzdot..