Centrālā tendence vs izkliede
Aprakstošajā un secinošajā statistikā datu kopai, kas atbilst tās centrālajai tendencei, izkliedei un šķībai, raksturo vairākus indeksus: trīs vissvarīgākās īpašības, kas nosaka datu kopas sadalījuma relatīvo formu.
Kas ir centrālā tendence?
Centrālā tendence attiecas uz vērtību lokalizācijas centru un atrod to. Aprakstot datu kopas centrālo tendenci, visbiežāk izmanto rādītājus, modeli un mediānu. Ja datu kopa ir simetriska, tad gan datu kopas vidējā, gan vidējā vērtība sakrīt.
Ņemot vērā datu kopu, vidējo lielumu aprēķina, ņemot visu datu vērtību summu un pēc tam dalot to ar datu skaitu. Piemēram, 10 cilvēku svaram (kilogramos) mēra 70, 62, 65, 72, 80, 70, 63, 72, 77 un 79. Tad desmit cilvēku vidējais svars (kilogramos) var būt aprēķina šādi. Svaru summa ir 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Vidējais = (summa) / (datu skaits) = 710/10 = 71 (kilogramos). Saprotams, ka novirzēm (datu punktiem, kas atšķiras no parastās tendences) ir tendence ietekmēt vidējo. Tādējādi, ja ir novirzes, vidusmērs vien nedos pareizu priekšstatu par datu kopas centru.
Mediāna ir datu punkts, kas atrodas precīzi datu kopas vidū. Viens veids, kā aprēķināt mediānu, ir datu punktu sakārtošana augošā secībā un pēc tam datu punkta atrašana pa vidu. Piemēram, ja reiz pasūtīts iepriekšējais datu kopums, izskatās, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Tāpēc (70 + 72) / 2 = 71 atrodas pa vidu. No tā izriet, ka mediānai nav jābūt datu kopā. Vidējo vērtību neietekmē noviržu klātbūtne. Tādējādi vidējā vērtība kalpos kā labāks centrālās tendences rādītājs noviržu klātbūtnē.
Režīms ir datu kopā visbiežāk sastopamā vērtība. Iepriekšējā piemērā vērtības 70 un 72 notiek abas reizes un tādējādi abi ir režīmi. Tas parāda, ka dažos sadalījumos ir vairāk nekā viena modālā vērtība. Ja ir tikai viens režīms, tiek uzskatīts, ka datu kopa ir vienveidīga, šajā gadījumā datu kopa ir bimodāla.
Kas ir izkliede?
Izkliede ir datu izplatīšanās daudzums par izplatīšanas centru. Diapazons ir visbiežāk izmantotie diapazoni un standarta novirzes.
Diapazons ir vienkārši augstākā vērtība mīnus zemākā vērtība. Iepriekšējā piemērā augstākā vērtība ir 80 un zemākā ir 62, tātad diapazons ir 80–62 = 18. Bet diapazons nesniedz pietiekamu priekšstatu par dispersiju.
Lai aprēķinātu standarta novirzi, vispirms tiek aprēķinātas datu vērtību novirzes no vidējā. Noviržu saknes kvadrāta vidējo lielumu sauc par standarta novirzi. Iepriekšējā piemērā attiecīgās novirzes no vidējās vērtības ir (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 un (79 - 71) = 8. Summa novirzes kvadrāti ir (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Standarta novirze ir √ (366/10) = 6,05 (kilogramos). Ja datu kopa nav ļoti sagrozīta, no tā var secināt, ka lielākā daļa datu ir intervālā 71 ± 6.05, un tas tiešām ir šajā konkrētajā piemērā.
Kāda ir atšķirība starp centrālo noslieci un izkliedi? • Centrālā tendence attiecas uz vērtību lokalizācijas centru un atrod to • Izkliede ir datu izplatīšanās daudzums par datu kopas centru.
|