Elvira II - subproyecto 5 (Albacete) Aplicación a datos de mejora genética en Ovejas Manchegas José A. Gámez jgamez@info-ab.uclm.es Instituto de Investigación en Informática de Albacete Universidad de Castilla-La Mancha Campus Universitario s/n. Albacete, 02071. Spain Elvira II ESROM Almería/Mayo/05 p.1/13
Contenidos Clasificación redes bayesianas predicción numérica Estudio previo C4.5 y NB Clasificadores bayesianos Clasificadores gaussianos Reglas difusas Elvira II ESROM Almería/Mayo/05 p.2/13
Ganado ovino: raza manchega Alta importancia económica en la región. Dos denominaciones: Queso manchego Cordero manchego 15% de la producción agrícola y más del 50% de la producción animal Elvira II ESROM Almería/Mayo/05 p.3/13
Ganado ovino: raza manchega Alta importancia económica en la región. Dos denominaciones: Queso manchego Cordero manchego 15% de la producción agrícola y más del 50% de la producción animal Mejora de la competitividad: ESROM (Esquema de Selección de la Raza Ovina Manchega) iniciado hace 15 años > (25 litros por lactación y oveja de mejora) Elvira II ESROM Almería/Mayo/05 p.3/13
Ganado ovino: raza manchega Alta importancia económica en la región. Dos denominaciones: Queso manchego Cordero manchego 15% de la producción agrícola y más del 50% de la producción animal Mejora de la competitividad: ESROM (Esquema de Selección de la Raza Ovina Manchega) iniciado hace 15 años > (25 litros por lactación y oveja de mejora) Principal parámetro: Valor o mérito genético de un animal En función de él: toma de decisiones en reposición de rebaños, madres candidatas por inseminación, mercado de sementales,... Elvira II ESROM Almería/Mayo/05 p.3/13
Datos Proporcionados por AGRAMA. Animals MammalQualif. Qualifications Observations Lactations BreedingValue Unificación en una sóla vista. Necesidad de resumir algunas variables (lactaciones). Limpieza de datos,... Unos 30000 registros y unas 30 variables. Elvira II ESROM Almería/Mayo/05 p.4/13
Clasificación I OBJETIVO: lograr buenos subconjuntos predictores que permitan realizar una valoración inicial sin esperar a la evaluación semestral realizada usando BLUP. Nos quedamos sólo con las ovejas de primer parto (primera vez que se hace el control de lactación y la medición del VG usando BLUP). De ellas sólo consideramos las que tienen (ellas y sus padres) mediciones fiables ( 0.4 o 0.6) según BLUP. Discretizamos en 4 y 5 bins por igual frecuencia la variable clase Discretizamos las variables predictoras usando Fayad-Irani. Se realiza grouping de las variables relativas a las granjas (más de 100 estados) Realizamos distintas tareas: selección manual, selección filter+wrapper, construcción de atributos. Elvira II ESROM Almería/Mayo/05 p.5/13
Clasificación I (cont.) 4 classes 5 classes Variables C4.5 C4.5(d) NB NB(d) C4.5 C4.5(d) NB NB(d) BVp(arents) 72,34 71,79 72,27 70,46 66,18 66,73 66,47 63,59 BVall 70,46 71,36 65,50 62,71 64,23 66,86 58,05 55,17 BVp+env 72,47 71,92 69,39 67,15 66,11 66,21 62,78 60,61 BVall+env 70,52 71,43 64,08 63,04 64,17 66,37 58,08 54,81 BVp+env+lact 75,38 76,39 71,33 70,52 69,42 69,58 64,82 63,46 BVall+env+lact 74,44 75,09 70,20 66,08 68,74 68,97 62,13 57,60 All variables 73,89 75,22 65,05 64,56 66,99 69,00 56,79 57,14 (a) Initial classification process FSS (C4.5) 75,41 7 76,39 5 71,65 7 71,69 5 69,45 7 69,58 5 65,24 7 65,66 5 FSS (Filter-1) 75,32 6 75,58 6 71,75 6 65,21 6 69,90 6 68,61 6 66,15 6 59,54 6 FSS (Filter-2) 75,25 9 75,38 9 70,72 9 63,81 9 68,74 9 68,97 9 63,46 9 56,88 9 FSS (FW(0)) 72,34 2 71,79 2 72,27 2 70,46 2 66,31 3 66,73 2 66,47 2 63,59 2 FSS (FW(5)) 76,12 3 76,48 9 78,23 3 75,22 3 70,07 5 69,91 7 71,46 3 67,22 3 FSS (FW( )) 76,54 7 76,48 9 78,23 3 75,25 2 69,97 4 69,91 7 71,36 5 67,38 5 FSS (Wrapper) 76,61 6 76,77 5 78,23 3 75,31 5 70,52 5 69,22 4 71,69 5 67,38 5 (b) Feature selection process FSS (FW(5)) 76,81 14 73,99 2 73,96 1 74,22 2 68,80 3 72,56 10 69,68 1 69,16 1 FSS (FW( )) 79,20 30 80,50 18 78,56 10 80,21 14 73,76 26 76,25 42 73,82 12 74,99 12 FSS (Wrapper) 80,04 8 81,86 18 79,33 4 80,24 6 75,25 9 76,48 8 74,76 5 74,83 8 (c) Attribute construction + FSS Elvira II ESROM Almería/Mayo/05 p.6/13
Clasificación II OBJETIVO: el mismo de antes Diferencia: distintas discretizaciones de la variable clase (ahora no es igual frecuencia y están orientadas a la toma de decisiones específicas) Datos: ahora no se exige fiabilidad en las mediciones, se consideran todas las ovejas de primer parto (10000 registros). Métodos: clasificadores bayesianos disponibles en Elvira Elvira II ESROM Almería/Mayo/05 p.7/13
Clasificación II OBJETIVO: el mismo de antes Diferencia: distintas discretizaciones de la variable clase (ahora no es igual frecuencia y están orientadas a la toma de decisiones específicas) Datos: ahora no se exige fiabilidad en las mediciones, se consideran todas las ovejas de primer parto (10000 registros). Métodos: clasificadores bayesianos disponibles en Elvira Ahora se distingue entre usar el índice de pedigree o no. Dos tareas: Predicción inicial (no se usan datos de lactación propios). Se compite con el índice de pedigrí Predicción tras el primer parto. Se compite con BLUP. 4labels 3labels 2labels conf. 0.7 predecir 72.4784 78.2088 91.3887 89.1419 blup 72.4178 78.1989 91.2774 89.0162 Elvira II ESROM Almería/Mayo/05 p.7/13
Clasificación II (cont) NB KDB-1 KDB-2 KDB-3 TAN SNB bp-inf predecir-np 70.7094 4 72.7106 4 73.1049 5 72.8118 5 72.9532 8 72.3569 2 1 predecir-p 72.8421 4 73.3879 3 73.6710 5 73.5193 5 73.0845 5 73.1959 2 1 blup-np 72.3470 5 75.1870 6 75.0861 6 74.6920 8 75.4498 6 74.6614 3 1 blup-p 75.7433 4 75.8441 5 76.1573 6 76.2179 6 75.8846 5 76.8954 3 1 (a) Resultados con las bases de datos originales 3labels predecir-np 77.2991 3 78.2796 6 78.5625 3 78.6636 5 78.3502 3 78.5727 3 1 predecir-p 78.4918 3 78.8961 3 79.3812 5 79.5731 4 78.8658 3 79.0276 2 1 blup-np 78.8658 3 80.8672 4 81.1400 4 81.1907 4 81.1703 7 80.7053 3 1 blup-p 80.9074 4 81.4634 6 82.1002 6 82.0495 8 81.4533 6 82.0091 3 1 (b) Resultados con la variable clase en tres estados 2labels predecir-np 91.2270 2 91.4492 6 91.4997 4 91.6515 4 91.4493 5 91.3281 2 1 predecir-p 91.7626 5 92.0659 3 91.9951 3 91.9951 3 92.0557 5 91.9546 2 1 blup-np 92.2074 4 93.0667 7 92.8845 5 92.7632 7 93.0565 7 92.7835 4 2 blup-p 93.2686 2 93.2687 3 93.4302 3 93.3898 4 93.3293 3 93.3697 2 1 (c) Resultados con la variable clase en dos estados 0.7 predecir-np 91.8270 4 90.3320 3 90.0072 3 90.0072 3 90.7400 5 92.9503 3 2 predecir-p 89.9109 3 89.6036 4 89.2037 3 89.2037 3 89.4803 3 90.8471 3 1 blup-np 95.2283 3 92.6744 4 90.6824 3 90.3085 3 92.4532 5 95.6181 4 3 blup-p 92.6239 4 90.3871 4 90.8715 2 90.8715 2 90.3001 5 95.4598 3 2 (d) Resultados forzando la clasificación con una confianza del 70% Elvira II ESROM Almería/Mayo/05 p.8/13
Redes Bayesianas "BVParentalGF" "BVParentalGM" "BVMaternalGM" "BVMaternalGF" "BVFather" "BVMother" "PedigreeIndex" "ReBVPGM" "ReBVPGF" "ReBVMGM" "ReBVMGF" "BV" "ReBVM" "ReBVF" "AvLacNorm" "AvLac120" "TypeOfBirth" "NLacM" "MaxLac120M" "BVReliability" "AvLAc120M" "AvLacNormM" "StockFarm" "FatherStockFarm" "MotherStockFarm" "MaxLacNormM" Elvira II ESROM Almería/Mayo/05 p.9/13
Redes Bayesianas (con restricciones) "BVParentalGF" "BVParentalGM" "BVMaternalGM" "BVMaternalGF" "BVFather" "BVMother" "PedigreeIndex" "ReBVPGM" "ReBVPGF" "ReBVMGM" "ReBVMGF" "BV" "ReBVM" "ReBVF" "AvLacNorm" "AvLac120" "TypeOfBirth" "NLacM" "MaxLac120M" "BVReliability" "AvLAc120M" "AvLacNormM" "StockFarm" "FatherStockFarm" "MotherStockFarm" "MaxLacNormM" Elvira II ESROM Almería/Mayo/05 p.10/13
Predicción numérica Ahora consideramos la variable BV sin discretizar. min = 33.76 max = 64.94 media = 6.94 sd = 13.857 Como variables predictoras sólo usamos las numéricas. Distinguimos las dos tareas (inicial y contrablup) y usar o no el índice de pedigrí Métodos basados en regresión y predictores gaussianos (naive Bayes, gtan y matriz de covarianzas completa). Elvira II ESROM Almería/Mayo/05 p.11/13
Predicción numérica Ahora consideramos la variable BV sin discretizar. min = 33.76 max = 64.94 media = 6.94 sd = 13.857 Como variables predictoras sólo usamos las numéricas. Distinguimos las dos tareas (inicial y contrablup) y usar o no el índice de pedigrí Métodos basados en regresión y predictores gaussianos (naive Bayes, gtan y matriz de covarianzas completa). Selección de variables filter-wrapper al igual que en clasificación (sólo sobre las técnicas basadas en regresión). Cálculo de I(X,Y) e I(X,Y C) siguiendo las expresiones propuestas en Wittaker. Elvira II ESROM Almería/Mayo/05 p.11/13
Predicción numérica (2) Predecir el valor inicial pedigree 0.8560 / 7.2792 pedigree LR RT MT GNB GTAN GFULL false corr 0.8808 0.8789 0.8896 0.8577 0.8429 0.8427 rmse 6.5358 6.5922 6.3033 7.9513 7.7694 7.7697 #att 6 3 3 3 3 3 true corr 0.8747 0.8760 0.8861 0.7973 0.6734 0.6260 rmse 6.7863 6.7574 6.4895 15.6124 11.4286 12.0137 #att 6 4 4 4 4 4 ContraBlup pedigree 0.8560 / 7.2792 pedigree LR RT MT GNB GTAN GFULL false corr 0.9230 0.9079 0.9315 0.8317-0.2255 0.3685 rmse 5.4124 5.9261 5.1160 11.9671 367.69 49.102 #att 6 4 7 7 7 7 true corr 0.9252 0.9119 0.9360 0.5815 0.3762 0.4678 rmse 5.3082 5.7486 4.9224 62.3231 49.9922 50.0435 #att 6 6 8 8 8 8 Elvira II ESROM Almería/Mayo/05 p.12/13
Predicción numérica: reglas difusas Sólo valor genético inicial (contra el índice de pedigrí) Base de datos más pequeña (2000 instancias, 2/3 vs 1/3) Búsqueda de predictores con pocas variables Sistemas difusos descriptivos sin y con pesos. GAs y EDAs como motor de búsqueda Elvira II ESROM Almería/Mayo/05 p.13/13
Predicción numérica: reglas difusas Sólo valor genético inicial (contra el índice de pedigrí) Base de datos más pequeña (2000 instancias, 2/3 vs 1/3) Búsqueda de predictores con pocas variables Sistemas difusos descriptivos sin y con pesos. GAs y EDAs como motor de búsqueda BVp BVm BV BVp BVm lactm BV Método gran. nr. ecme CE ecme CT gran. nr. ecme CE ecme CT pedigrí rmse = 7.2366 RL - - 7.2070 6.5691 - - 7.1996 6.5421 AR - 35 7.4215 7.5655-26 7.4926 7.5779 RN - - 7.3208 6.6592 - - 7.1305 6.4868 WM 5,6,6 22 7.6101 6.8729 5,6,4,6 50 7.2927 6.7895 5,4,7 16 7.4743 6.9914 5,6,3,6 40 7.5699 6.9457 3,3,5 8 7.7350 7.4818 3,3,3,5 16 8.5903 8.4523 GA-COR 5,6,6 21 7.4649 6.8143 5,6,4,6 41 6.9377 6.5695 UMDA-COR 5,6,6 22 7.4790 6.9058 5,6,4,6 44 6.9251 6.5768 GA-WCOR 5,6,6 22 7.0963 6.5171 5,6,4,6 42 6.8929 6.4689 UMDA-WCOR 5,6,6 22 7.0829 6.5604 5,6,4,6 43 6.7746 6.4706 Elvira II ESROM Almería/Mayo/05 p.13/13