Informción Relevnte y Confible, por fvor Mrcelo Ferreyr
L Informción El Mundo gener Dtos i Los Dtos contienen Informción Los Modelos codificn es Informción
L Informción El modelo es un cnl de informción Entrd X Slid Y Modelo El Modelo codific l informción proveniente de ls vribles de Entrd y trnsmite un mensje hci l Slid
L Informción Ejemplo: un modelo de Attrition Se Qued Modelo Se V Clientes Dtos
L Informción Los dtos contienen Informción El modelo cnliz l Informción L informción se utiliz pr tomr un decisión Qué es l Informción?
L Informción Teorí de l Informción de Clude Shnnon n H log 2 i p i p i Entropí mide l Cntidd de Informción. Se mide en BITS Probbilidd de que rribe el mensje i
L Informción Ejemplo: un moned Cr Cruz n H log 2 i Lnzmiento de un moned Mensje p -log 2 (p) -p*log 2 (p) Cr 0.5 1 0.5 Cruz 0.5 1 0.5 p i p H 1 i
L Informción Ejemplo: un moned crgd n H log 2 i p i p Lnzmiento de un moned Mensje p -log 2 (p) -p*log 2 (p) Cr 0.3 1.737 0.521 Cruz 0.7 0.515 0.36 Si ls probbiliddes no son igules l entropí es menor i H 0.881
L Informción Cd vrible contiene un determind cntidd de informción Pero es mucho más interesnte y útil conocer qué cntidd de informción llev un vrible sobre otr Supongmos un vrible X que tiene tres vlores distintos b c Y queremos sber cómo está relciond con otr vrible Y que tmbién tiene 3 vlores distintos q r s
L Informción b c b c X Y Idel q r s q El cso más simple es cundo hy un relción biunívoc entre ls señles de X e Y En este cso l informción se trnsmite sin interferencis q r s Y q r s 1.0 b c q r s X b c 1.0 1.0
L Informción b c X Y q r s b q c Equivocción El segundo cso es cundo vris señles distints de entrd puntn un sol señl de slid. Muchs voces distints están diciendo lo mismo. q r s Y q r s 1.0 b c q r s X b c 1.0 1.0
L Informción b c b c X Y Ruido q r s q q r s Cundo l relción contiene Ruido, un mism señl de entrd punt distints señles de slid. L señl de slid es inciert pr un determind señl de entrd Y q r s 0.3 0.3 0.3 b c q r s X b c
L Informción b c X Y q r s Con dtos reles lo norml es que exist un mezcl de informción, ruido y equivocción. b c q q r s Y q r s 0.5 0.5 b c q r s Ruido y Equivocción X b c 1.0 0.5 0.5
L Informción Ejemplo: medición de Informción en un bse de dtos Medido con Powerhouse Anlytics
L Informción Ventjs de medir l informción o o o o Es posible conocer si los dtos contienen informción ún ntes de modelr El ruido tiene un definición precis Se obtiene un referenci con l que comprr el modelo Se puede utilizr pr seleccionr vribles
L Informción Selección de vribles 1. Seleccionr l vrible que myor informción conteng cerc de l vrible predecir 2. Seleccionr l siguiente vrible con myor informción dicionl cerc de l vrible predecir 3. Continur con el pso 2 hst que l cntidd de informción que porte l vrible no justifique l pérdid de representtividd
L Informción Ls herrmients de DM son muy útiles pr obtener informción Árboles de Decisión NN SVM Regresión Linel Pero no lcnzn pr conocer su relevnci
Informción Relevnte Trbjo multidisciplinrio o IT o quienes dministrn los Dtos o Dt Miners o Dt Scientist o Quienes conocen el Negocio o Científicos Sociles
Informción Relevnte Por qué científicos sociles? Antropólogos y Sociólogos cuentn con herrmients de investigción y nálisis necesris pr comprender los distintos códigos culturles que formn prte de l sociedd. A trvés de l desnturlizción, costumbrn explorr los supuestos pr dejrlos l descubierto L comprensión del otro pr poder ver con más clridd los distintos segmentos socioeconómicos tnto desde dentro como desde fuer
Informción Relevnte Modelos empíricos versus teóricos Johnnes Kepler versus Isc Newton Kepler desrrolló un modelo empírico que permite clculr los movimientos plnetrios Newton propuso un modelo teórico con el que se puede entender y predecir
Informción Relevnte Utilizr el Método Científico L cienci es más un determind mner de pensr, que un cuerpo de conocimientos Crl Sgn El Cerebro de Broc
Informción Relevnte Ejemplo de un mrco teórico Mercdos Finncieros Hipótesis del Mercdo Eficiente Los precios reflejn tod l informción públic y siguen un cmino l zr Los inversores son rcionles Teorí del Cos Los precios muestrn comportmientos de sistems dinámicos no lineles
Informción Confible Desrrollo versus Producción o o o o Cntidd de dtos necesrios Uso de l muestr de vlidción Pruebs estdístics Correlciones
Informción Confible Cntidd de dtos necesrios Problem: un urn contiene bolills de colores. Cuánts bolills l zr se deben scr pr estimr l distribución?
Informción Confible Cntidd de dtos necesrios Problem: un urn contiene bolills de colores. Cuánts bolills l zr se deben scr pr estimr l distribución?
Informción Confible Cntidd de dtos necesrios Problem: un urn contiene bolills de colores. Cuánts bolills l zr se deben scr pr estimr l distribución?
Informción Confible Cntidd de dtos necesrios Problem: un urn contiene bolills de colores. Cuánts bolills l zr se deben scr pr estimr l distribución?
Informción Confible Uso de l muestr de prueb Desrrollo Prueb
0.52 0.53 0.53 0.54 0.55 0.55 0.56 0.57 0.57 0.58 0.59 0.59 0.60 0.60 0.61 0.62 0.62 0.63 0.64 0.64 0.65 y myor... Informción Confible Pruebs estdístics Es necesrio relizr ls pruebs estdístics propids pr vlidr los modelos KS vliddo con Bootstrp KS = 58.9 55.9 < KS < 61.5 (95%) Distribución KS
Informción Confible Estbilidd de l distribución de los dtos El mercdo finnciero no tiene un distribución estble lo lrgo del tiempo Cmbios de Precios Vrinz
Informción Confible Correlciones: Coincidenci de coss que ocurren junts Correlciones espures 11 10.5 10 9.5 9 8.5 8 7.5 7 Electrocutdos vs. Csmientos R² = 0.8165 50 70 90 110 130 150 Mtemáticos condecordos vs. Suicidios 9500 9000 8500 8000 7500 7000 6500 R² = 0.7399 6000 5500 5000 700 900 1100 1300 1500 1700
Informción Confible Correlciones Teorí de Rmsey (1903-1930): El desorden totl es imposible L probbilidd de encontrr correlciones espures en un bse de dtos ument con el tmño de l mism The Deluge of Spurious Correltions in Big Dt C. Clude nd G. Longo
Informción Confible Google Flu Trends Google descubrió que ls búsqueds de enfermeddes en Internet se delntbn ls epidemis de gripe. En 2008 desrrollron un modelo y lo ctulizron en 2009 Buenos Aires
Informción Confible Google Flu Trends En el invierno 2011-2012 GFT sobrestimó por más del 50% el número de csos de gripe reportdos por el Centro de Control y Prevención de Enfermeddes de los Estdos Unidos Sucedió lgo similr durnte el invierno 2012-2013 En Agosto de 2015, Google dejó de publicr predicciones de GFT
Resumen Medir l Informción en los Dtos Proyectos multidisciplinrios incorporndo Científicos Sociles Buscr l Teorí que resplde l Informción encontrd Reforzr ls buens práctics
Referencis Dt Mining bsdo en Teorí de l Informción: http://web.ustrl.edu.r/imges/contenido/fcultd-ingenieri/2- Dt_Mining_bsdo_Teori_Informcion_Mrcelo_Ferreyr.pdf http://powerhousedm.blogspot.com.r/ http://www.dtxplore.com.r/tecnologi.php#powerhouse Google Flu Trends: https://www.google.org/flutrends/bout/