Estatistika eta datuen analisia
Sakabanatze-neurri absolutuak (ibiltartea) Ibiltartea (ingelesez, range) Datu handienaren eta txikienaren arteko diferentzia da: R = x max x min
Sakabanatze-neurri absolutuak (ibiltartea) Ibiltartea (ingelesez, range) Datu handienaren eta txikienaren arteko diferentzia da: R = x max x min Zenbat eta handiagoa izan, sakabanatzea (ingelesez, dispersion, spread, variability) orduan eta handiagoa izango da noski.
Sakabanatze-neurri absolutuak (ibiltartea) Ibiltartea (ingelesez, range) Datu handienaren eta txikienaren arteko diferentzia da: R = x max x min Zenbat eta handiagoa izan, sakabanatzea (ingelesez, dispersion, spread, variability) orduan eta handiagoa izango da noski. Muturreko datuen eraginpean dago guztiz, eta ez da jasankorra beraz.
Sakabanatze-neurri absolutuak (kuartil arteko ibiltartea) Kuartil arteko ibiltartea (ingelesez, interquartile range) IQR = Q 3 Q 1 = P 75 P 25 Erdian dauden datuen %50ek hartzen duten distantzia adierazten du.
Sakabanatze-neurri absolutuak (kuartil arteko ibiltartea) Kuartil arteko ibiltartea (ingelesez, interquartile range) IQR = Q 3 Q 1 = P 75 P 25 Erdian dauden datuen %50ek hartzen duten distantzia adierazten du. Zenbat eta handiagoa, distantzia hori orduan eta zabalagoa, sakabanatzea orduan eta handiagoa izango da.
Sakabanatze-neurri absolutuak (kuartil arteko ibiltartea) Kuartil arteko ibiltartea (ingelesez, interquartile range) IQR = Q 3 Q 1 = P 75 P 25 Erdian dauden datuen %50ek hartzen duten distantzia adierazten du. Zenbat eta handiagoa, distantzia hori orduan eta zabalagoa, sakabanatzea orduan eta handiagoa izango da. Muturrak baztertzen dituenez, outlier direlakoek ez dute deus ere eragiten eta beraz neurri jasankorra da guztiz.
Sakabanatze-neurri absolutuak (desbideratze estandarra) Desbideratze estandarra i s x = (x i x) 2 = n i x2 i n x 2
Sakabanatze-neurri absolutuak (desbideratze estandarra) Desbideratze estandarra i s x = (x i x) 2 = n i x2 i n x 2 Ingelesez, standard deviation, frantsesez écart type, gaztelaniaz, desviación típica
Sakabanatze-neurri absolutuak (desbideratze estandarra) Desbideratze estandarra i s x = (x i x) 2 = n i x2 i n x 2 Ingelesez, standard deviation, frantsesez écart type, gaztelaniaz, desviación típica Lehenengo formula jatorrizkoa da eta desbideratze estandarra datu bakoitza batezbestekotik batezbestez zenbat desbideratzen den dela adierazten du, batezbesteko koadratiko baten bitartez.
Sakabanatze-neurri absolutuak (desbideratze estandarra) Desbideratze estandarra i s x = (x i x) 2 = n i x2 i n x 2 Ingelesez, standard deviation, frantsesez écart type, gaztelaniaz, desviación típica Lehenengo formula jatorrizkoa da eta desbideratze estandarra datu bakoitza batezbestekotik batezbestez zenbat desbideratzen den dela adierazten du, batezbesteko koadratiko baten bitartez. Bigarren formula, formula erraza deituko duguna, erabiliko dugu gehienetan.
Sakabanatze-neurri absolutuak (desbideratze estandarra) Ez da jasankorra, baina abantaila moduan datu guztiak hartzen ditu bere baitan.
Sakabanatze-neurri absolutuak (desbideratze estandarra) Ez da jasankorra, baina abantaila moduan datu guztiak hartzen ditu bere baitan. Beti positiboa da (0 datu guztiak berdinak direnean).
Sakabanatze-neurri absolutuak (desbideratze estandarra) Ez da jasankorra, baina abantaila moduan datu guztiak hartzen ditu bere baitan. Beti positiboa da (0 datu guztiak berdinak direnean). Zenbat eta handiagoa izan, datuak batezbestekotik orduan eta gehiago desbideratzen dira eta beraz, sakabanatzea orduan eta handiagoa da.
Sakabanatze-neurri absolutuak (bariantza) Bariantza (ingelesez, variance) Desbideratze estandarraren karratua besterik ez da. i s 2 x = (x i x) 2 i = x2 i x 2 n n Populazio-bariantza ere deitzen zaio (ikus hurrengo atala).
Sakabanatze-neurri absolutuak (bariantza) Bariantza (ingelesez, variance) Desbideratze estandarraren karratua besterik ez da. i s 2 x = (x i x) 2 i = x2 i x 2 n n Populazio-bariantza ere deitzen zaio (ikus hurrengo atala). Lagin-bariantza (ingelesez, sample variance) zati n egin ordez, zati (n-1) egiten du formula luzean. ŝ 2 x = i (x i x) 2 n 1
Sakabanatze-neurri absolutuak (bariantza) Lagin-bariantzak ez du formula erraz edo laburrik, populazio-bariantzak ez bezala.
Sakabanatze-neurri absolutuak (bariantza) Lagin-bariantzak ez du formula erraz edo laburrik, populazio-bariantzak ez bezala. Lagin bariantza (hots, zati n-1) lagin bateko datuetatik populazio oso baten bariantza zenbatetsi edo estimatzeko populazio-bariantza (zati n) baino egokiagoa delako erabiltzen da.
Sakabanatze-neurri absolutuak (kalkulua R softwarearekin) R softwareak lagin-bariantza kalkulatzen du zuzenean. Honela: >var(datuenizena) Desbideratze estandarra ere lagin bariantzaren erroa eginez kalkulatzen du zuzenean (hau da, s x = >sd(datuenizena) i (x i x) 2 n 1 ). Honela: Populazio-bariantzaren balioa eskuratzea erraza da, eragiketa sinple batez, n datuen kopurua izanik: >((n-1)/n)*var(datuenizena) Populazio-bariantza izango da erabiliko duguna ikastaroan.
Sakabanatze-neurri absolutuak (MAD) Desbideratze absolutuen mediana (MAD, Median of Absolute Deviations) Medianarako datuek dituzten distantzia absolutuen mediana da: ADIBIDEA: Datuak: 2,4,5,7,8 MAD = Me( x i Me ) Mediana kalkulatzen da: Me=5 Medianarako distantzia absolutuak kalkulatzen dira: x i Me : 3, 1, 0, 2, 3 MAD distantzia horien mediana da. Ordenatuta: x i Me ord : 0, 1, 2, 3, 3 MAD zuzenean kalkula daiteke orain: MAD = Me( x i Me ) = 2
Sakabanatze-neurri absolutuak (MAD) Zenbat eta handiagoa, sakabanatzea orduan eta handiagoa da. Neurri jasankorra da. Eragozpenik badu: medianan oinarritzen denez, ez du jasotzen datuetan biltzen den informazio guztia. Datu isolatuekin bakarrik kalkulatuko dugu. Bestela, oso zaila da kalkulua.
Sakabanatze-neurri erlatiboak Sakabanatze-neurri absolutuak ez dira egokiak datu-multzo zenbaiten sakabanatzea alderatzeko, besteak beste, unitateak dituztelako, hau da, dimentsiodunak direlako. Adibidez, altuera datu-multzo batean desbideratze estandarra cm-tan jasoko balitz, m-tan jaso ordez, desbideratze estandarraren balioa bider 100 suertatuko litzateke, sakabanatzea berdina izanda (datu-multzoa berdina delako). Beraz, sakabanatze-neurri bat datu-multzoen sakabanatzeak alderatzeko egokia izan dadin, unitatea ezabatu egin behar zaio, hau da, dimentsiogabea bihurtu. Horretarako, sakabanatze-neurri absolutu bat dagokion zentro-neurri batekin zatitu ohi da.
Sakabanatze-neurri erlatiboak Beste arrazoi bat ere bada sakabanatze neurri erlatiboak erabiltzeko, adibide baten bitartez azladuko dena. Haitiko eta Frantziako urteko familia errentak jaso eta batezbestekoa nahiz desbideratzeak kalkulatu dira: Errentak Haitin Frantzian x 100 1000 s x 10 10 Ez dira berdinak 10 desbideratzea 100 inguruan, Haitin, eta 10 desbideratzea 1000 inguruan, Frantzian. Haitin, noski, sakabanatzea handiagoa da, batesbestekoarekiko. Horregatik sakabanatzeak alderatzeko sakabanatze neurri absolutu bat eta zentro neurri bat bateratu behar dira.
Sakabanatze-neurri erlatiboak Ibiltarte erlatiboa: R x Aldakortasun-koefizientea: sx x Kuartil arteko ibiltarte erlatiboa: IQR Q 3 +Q 1 MAD Me
Estandarketa Datu-multzo ezberdinetako datuak alderatzeko erabiltzen da. Adibidez, A ikastetxea: x = 7, s x = 2, x Ane = 9 B ikastetxea: x = 5, s x = 1, x Bea = 7 Anek nota handiagoa du, baina nork du nota handiena egiaz?
Bi ikasleak datu-multzo ezberdinetakoak direnez, datuak estandartu egin behar dira: x i z i = x i x s x Adibideari helduz: z Ane = 9 7 = 1 2 z Bea = 7 5 = 2 1 Beraz, Beak nota handiagoa du erlatiboki. Bestalde, z datu estandarrak dimentsiogabeak dira, hau da, ez dute unitaterik, eta beraz estandarketa datuak unitaterik gabe utzi nahi direneko egoeretarako ere baliagarria da.