L Estadística: una eina al servei del coneixement Joan del Castillo 2 d Abril de 2004
Qüestions d interès El tabac provoca càncer? Els medicaments són efectius? Els preservatius eviten la SIDA? Les enquestes electorals estan ben fetes? Un joc d atzar està manipulat? Hi ha fenòmens paranormals?
Índex 1. Determinisme i aleatorietat. 2. L Estadística i l evolució. 3. El test X 2 n de Pearson.
1. Determinisme i aleatorietat L Estadística: una eina al servei del coneixement
Isaac Newton Philosophiae Naturalis Principia Mathematica, 1687. El paradigma del determinisme científic. El moviment dels planetes, les marees. Les lleis físiques, els principis i les prediccions. El mètode científic. Altres tipus de veritats: El testimoni.
F = mm G R 2 mg = mm G R 2
El sistema solar conegut el 1770
J D Titus i J E Bode (1770) Els sis planetes coneguts segueixen la serie de distàncies al Sol: 1+ 4 3+ 4 6+ 4 12+ 4 24+ 4 48+ 4 96+ 4,,,,,, 10 10 10 10 10 10 10 ( ) ( ) ( ) ( ) ( ) ( ) ( ) 0.5 0.7 1 1.6 ( 2.8) 5.2 10
Carl Fredr. Gauss Gener 1801 Piazzi descobreix Ceres a 2.8! Al febrer es posa malalt. Ceres passa darrera el Sol. Gauss: prediu la posició. Inventa els mínims quadrats. Mesures amb errors. Olbers el localitza.
La llei dels errors Distribució normal de probabilitats 1 x exp 2π 2 2 0,450 0,400 0,350 0,300 0,250 0,200 0,150 0,100 0,050 0,000-5 -4-3 -2-1 0 1 2 3 4 5
La llei dels errors Distribució normal de probabilitats 1 x exp 2π 2 2 0,450 0,400 0,350 0,300 0,250 0,200 0,150 0,100 0,050 0,000 95% -5-4 -3-2 -1 0 1 2 3 4 5
Gauss arriba als bitllets de Banc
2. L Estadística i l Evolució L Estadística: una eina al servei del coneixement
Charles Darwin On the Origin of Species by Means of the Natural Selection... (1859). Els organismes competeixen pels recursos, els que tenen un avantatge innat prosperen i el transmeten als descendents. G.Mendel el 1865 explica el mecanisme. L ADN de Crick i Watson (1953).
Galton, Pearson i Fisher Galton, el cosí de Darwin. La recta de regressió. K. Pearson (1900). El test X 2. Els 20 del segle XX. R. Fisher (1920). Genètica de poblacions. Disseny d experiments.
Recollida d informació Codi Edat (anys) Gènere Pes Alçada Tabac 1 20 f 61 170 1 2 20 f 65 171 0 3 19 f 55 166 0 4 20 f 63 170 1 5 18 f 56 170 1 6 18 f 59 160 0 7 16 f 58 165 0 8 20 f 57 169 1 9 20 f 58 165 1 10 20 f 50 153 1 11 18 m 90 171 1 12 18 m 60 168 1 13 19 m 61 172 1 14 22 m 72 187 0 15 21 m 65 170 0
Evolució de les freqüències Variable Tabac: Freqüencies relatives Freqüencies absolutes Codi Tabac Acumulades F. Relatives 1 1 1 1.000 2 0 1 0.500 3 0 1 0.333 4 1 2 0.500 5 1 3 0.600 6 0 3 0.500 7 0 3 0.429 8 1 4 0.500 9 1 5 0.556 10 1 6 0.600 11 1 7 0.636 12 1 8 0.667 13 1 9 0.692 14 0 9 0.643 15 0 9 0.600
Frequències relatives Tabac Fre. Relativa 1.000 0.500 0.333 0.500 0.600 0.500 0.429 0.500 0.556 0.600 0.636 0.667 0.692 0.643 0.600 1.200 1.000 0.800 0.600 0.400 0.200 0.000 Evolució de la freqüencia relativa dels fumadors (Tabac) Fre. Relativa 0 2 4 6 8 10 12 14 16
Límit de les freqüències Feqüència de fumadors en una mostra de 931 persones Freq_relativa 1.200 1.000 0.800 0.600 0.400 0.200 0.000 0 100 200 300 400 500 600 700 800 900 1000
La llei dels errors Distribució normal de probabilitats 1 x exp 2π 2 2 0,450 0,400 0,350 0,300 0,250 0,200 0,150 0,100 0,050 0,000 95% -5-4 -3-2 -1 0 1 2 3 4 5
Distància Probabilitat-Freqüència Amb un 95% de confiança fn p < 1 n n= 931, f = 0.448, p=? 0.415 p 0.481 n
Estudi de dues variable Dues variables contínues: Recta de regressió. Dues variables discretes: Taules de contingència. Test Xi-quadrat de Pearson. Una discreta i una contínua: Proves t de comparació de grups. Anàlisi de la variancia.
Relació pes i alçada Recta de regressió 120 100 Pes (Kg) 80 60 40 20 0 150 160 170 180 190 200 Alçada (cm)
Relació pes i alçada Recta de regressió 120 100 Pes (Kg) 80 60 40 20 0 150 160 170 180 190 200 Alçada (cm)
Índex de massa corporal Classificació de la OMS: Pes(Kg) IMC = Alçada m Index de massa corporal: Normal: de 18.5 a 24.5 Sobrepes: de 24.5 a 27 Obesitat: més de 27 ( ) 2 2
3. Test X 2 n de Pearson L Estadística: una eina al servei del coneixement
Recollida d informació Codi Edat (anys) Gènere Pes Alçada Tabac 1 20 f 61 170 1 2 20 f 65 171 0 3 19 f 55 166 0 4 20 f 63 170 1 5 18 f 56 170 1 6 18 f 59 160 0 7 16 f 58 165 0 8 20 f 57 169 1 9 20 f 58 165 1 10 20 f 50 153 1 11 18 m 90 171 1 12 18 m 60 168 1 13 19 m 61 172 1 14 22 m 72 187 0 15 21 m 65 170 0
Hi ha relació gènere-tabac? Homes Dones Total Fumador 217 200 417 No_Fuma 244 270 514 Total 461 470 931 f ( F H) ( ) f ( H) f H F 217 = = = 461 0.471 f ( F D) ( ) f ( D) f F D 200 = = = 0.426 470
Suposant independència Homes Dones Total Fumador E 11 E 12 417 No_Fuma E 21 E 22 514 Total 461 470 931 461 417 P( H F) = P( H) P( F) = 931 931 461 417 E11 = n P( H F) = = 206.48 931
Comparem les dues taules Observats Homes Dones Total Fumador 217 200 417 No_Fuma 244 270 514 Total 461 470 931 Esperats Homes Dones Total Fumador 206.48 210.52 417 No_Fuma 254.52 259.48 514 Total 461 470 931
Test X 2 n de Pearson Un dels 20 descobriments més importants del Segle XX 2 i, j= 1 ( E O ) 2 ij ij E ij 3.84 En el 95% dels casos, si hi ha independència
No hi ha evidència de diferències Observat Esperat X 2 217 206.48 0.54 244 254.52 0.43 200 210.52 0.53 270 259.48 0.43 p-valor = 0.1657 1.92 2 i, j= 1 ( E O ) 2 ij ij ns E ij = 1.92 3.84
Test X 2 n de Pearson Hacking (1984). Trial by number. Science, 84, 69-70. Cita de: C.R.Rao, Estadística y verdad. PPU. Barcelona, 1994.
Fumar provoca càncer? Cancer Altres Total Fumador 348 3152 3500 No_Fuma 82 1418 1500 Total 430 4570 5000 ( ) f C F ( F) f ( F) f C 348 = = = 3500 0.099 ( ) f C F ( F) f ( F) f C 92 = = = 0.055 1500
Fumar provoca càncer? Observats Càncer Altres Total Fumador 348 3152 3500 No_Fuma 82 1418 1500 Total 430 4570 5000 Esperats Càncer Altres Total Fumador 3500 No_Fuma 1500 Total 430 4570 5000
Fumar provoca càncer? Observats Càncer Altres Total Fumador 348 3152 3500 No_Fuma 82 1418 1500 Total 430 4570 5000 Esperats Càncer Altres Total Fumador 301 3199 3500 No_Fuma 129 1371 1500 Total 430 4570 5000
Sí, el tabac provoca càncer! Observat Esperat X 2 348 301 7.34 82 129 17.12 3152 3199 0.69 1418 1371 1.61 p-valor 2.29801E-07 26.76 2 i, j= 1 ( E ) 2 ij Oij E ij ** 26,76 3.84 = >
Què és un fet estrany? Estrany, estadísticament: Allò que passa un 1 cop de cada 20. p = 1/ 20 = 0.05 Molt estrany: Allò que passa un 1 cop de cada 100. p = 1/100 = 0.01 Si no és estrany, en direm normal.
No hi ha evidència de diferències Observat Esperat X 2 217 206.48 0.54 244 254.52 0.43 200 210.52 0.53 270 259.48 0.43 p-valor = 0.1657 1.92 2 i, j= 1 ( E O ) 2 ij ij ns E ij = 1.92 3.84
Sí, el tabac provoca càncer! Observat Esperat X 2 348 301 7.34 82 129 17.12 3152 3199 0.69 1418 1371 1.61 p-valor 2.29801E-07 26.76 2 i, j= 1 ( E ) 2 ij Oij E ij ** 26,76 3.84 = >
Podem controlar l Atzar Sabem mesurar la variabilitat produida per l atzar. És possible saber la veritat i és fàcil detectar mentides. Podem fixar un nivell de confiança per a les nostres afirmacions. En biologia el nivell habitual és: 95% - 99%.
Assaig clínic Fase I: de 20-80 individus. Seguretat, dosis terapèutica, efectes adversos. Fase II: de 100 a 300 individus. Eficàcia i seguretat. Fase III: de 1000 a 3000 individus. Confirmar l eficàcia, comparar amb el millor. Fase IV: Ja comercialitzat.
Un control a doble cec Tractament i control (efecte placebo). Repartits aleatòriament, només l ordinador coneix la clau. Els pacients no ho saben, els terapeutes tampoc (metges, infermeres, farmacèutics). Tots els informes escrits i segellats. Ser-ne partidari o contrari no canvia el resultat.