Tecnología difusa aplicada a la comparación de motivos de ADN



Documentos relacionados
Metodología. del ajuste estacional. Tablero de Indicadores Económicos

MODELOS DE RECUPERACION

Tema 3. Medidas de tendencia central Introducción. Contenido

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias:

ANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS

1.1. Introducción y conceptos básicos

Covarianza y coeficiente de correlación

SÍNTESIS Y PERSPECTIVAS

Tema 10. Estimación Puntual.

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics-

1.4.- D E S I G U A L D A D E S

ANÁLISIS DE DATOS NO NUMERICOS

4 Pruebas y análisis del software

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros.

SISTEMAS DE NUMERACIÓN. Sistema decimal

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Tema 3: Variables aleatorias y vectores aleatorios bidimensionales

ESTIMACIÓN. puntual y por intervalo

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

Redes de Kohonen y la Determinación Genética de las Clases

RESULTADOS CONSULTA CIUDADANA VIRTUAL. Consulta Laboral en Línea

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Generación de Números Pseudo-Aleatorios

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

forma de entrenar a la nuerona en su aprendizaje.

Subespacios vectoriales en R n

TEMA 5 ESTUDIOS CORRELACIONALES.


Análisis y cuantificación del Riesgo

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO

Indicaciones específicas para los análisis estadísticos.

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales

ESTIMACION DE INTERVALOS DE CONFIANZA

Análisis interno de una empresa: diagnóstico de los recursos disponibles

La práctica del análisis de correspondencias

Aula Banca Privada. La importancia de la diversificación

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

Inferencia Estadística

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

2.1 INFORMACION BASICA Y PRINCIPALES DEFINICIONES.

DIVISAS Evolución y análisis de tipos de cambio( )

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso

by Tim Tran:

Unidad de trabajo 2: INFORMÁTICA BÁSICA (primera parte)

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Dirección de Planificación Universitaria Dirección de Planificación Universitaria Panamá, Rep. de Panamá Panamá, Rep.

Aplicaciones Lineales

ESTADÍSTICA SEMANA 4

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal)

TIPO DE CAMBIO, TIPOS DE INTERES Y MOVIMIENTOS DE CAPITAL

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Capítulo 3. Estimación de elasticidades

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

Muestreo estadístico. Relación 2 Curso

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

1. Construcción de Planes de Acción Sectoriales (PAS)

Probabilidades y Estadística (Computación) Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires Ana M. Bianco y Elena J.

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

Aproximación local. Plano tangente. Derivadas parciales.

Análisis de los datos

La clave para un mejor control en SEIS SIGMA: Ing. Luis Aranda

ERRORES CONCEPTUALES DE ESTADÍSTICA EN ESTUDIANTES

Itinerario Formativo en Innovación Docente

CURSO BÁSICO DE MATEMÁTICAS PARA ESTUDIANTES DE ECONÓMICAS Y EMPRESARIALES

TEMA 3: EN QUÉ CONSISTE?

Entender el funcionamiento de los relojes permitiría lidiar con ciertas patologías en humanos. 28 ACTUALIDAD EN I+D RIA / Vol. 41 / N.

TEMA 8: SISTEMA DE COSTES POR PROCESOS. INDICE. 1.- Caracteristicas generales de los sistemas de costes por procesos.

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción.

CAPITULO I: PLANTEAMIENTO DEL PROBLEMA

Los sistemas de numeración se clasifican en: posicionales y no posicionales.

Ampliación de Estructuras de Datos

Centro de Capacitación en Informática

Capítulo 7: Distribuciones muestrales

Comenzando con MATLAB

INFORME DE ANÁLISIS DE ENCUESTAS DE SATISFACCIÓN DE USUARIOS PERÍODO

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

6. VECTORES Y COORDENADAS

Control Estadístico de Procesos

Capítulo 7 Conclusiones y futuras líneas de trabajo 7.1. Conclusiones

DISEÑO DE INDICADORES DE DESIGUALDAD SOCIAL EN LAS CIUDADES.-

Ejercicios de Trigonometría

VI PLAN DE PRUEBAS, RESULTADOS Y RECOMENDACIONES

TEMA 2: Representación de la Información en las computadoras

Tratamiento del Riesgo

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II

342 SOBRE FORMAS TERNARIAS DE SEGUNDO GRADO.

Impactos económicos del gasto turístico. Capítulo 7

Matrices Invertibles y Elementos de Álgebra Matricial

Análisis de Resultados

Análisis de medidas conjuntas (conjoint analysis)

Tratamiento borroso del intangible en la valoración de empresas de Internet

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

Encuesta de. Ocupación Hotelera

3. ANÁLISIS ESTADÍSTICOS DE LAS PRECIPITACIONES EN EL MAR CASPIO

INTERPOLACIÓN POLINÓMICA Y LA DIVISIÓN DE SECRETOS

x

Transcripción:

Tecnología difusa aplicada a la comparación de motivos de ADN Fernando García Alcalde 1 Carlos Cano Gutiérrez 1 Francisco J. López Domingo 1 Armando Blanco Morón 1 1 Dept. Ciencias de la Computación e I. A., Univ. de Granada, 18071, Spain, {fernan,ccano,fjavier,armando}@decsai.ugr.es Resumen La identificación de novo de motivos de regulación (TFBSs) es un problema crucial en biología computacional. Los TFBSs se representan mediante matrices de frecuencia, y su identificación incluye la tarea de comparar entre sí secuencias candidatas a formar parte de un motivo en cuestin, así como la comparación de dichos motivos con otros motivos conocidos. Hasta la fecha no existe una propuesta difusa para dicho problema. En este trabajo proponemos el uso de medidas difusas en tareas de comparación de motivos. Investigamos el comportamiento de diferentes clases de medidas difusas clásicas basadas en teoría de conjuntos (Jaccard), proximidad (métrica de Minkowsky), y coeficiente angular (distancia de Bhattacharyya). Del mismo modo estudiamos una medida definida en el espacio polinucleótido difuso. Los resultados son excelentes para datos sintéticos y mejoran otras medidas existentes cuando se utilizan datos de motivos reales. Además, para solventar un problema común en el diseño de medidas de comparación de motivos, proponemos la ponderación de las posiciones de los motivos en función del nivel de conservación que presenten. Palabras Clave: Motivos ADN, Medidas Difusas, TFBS. 1. Introducción Uno de los principales objetivos de la biología computacional consiste en descubrir cómo se regula la expresión de los genes. Es bien conocido que la expresión de un gen se lleva a cabo en diversos pasos, siendo en la mayoría de los casos el más importante de ellos la transcripción. En células eucariotas las primeras etapas de la transcripción se controla mediante una serie de proteínas, llamadas factores de transcripción (TFs, del inglés transcription factors), que se unen a zonas específicas de la cadena de ADN llamadas sitios de unión de los factores de transcripción (TFBSs, del inglés transcription factor binding sites), produciendo mediante esta unión los patrones correctos de transcripción. Parece ser que no existe un código de apareamiento sencillo aminoácido-nucleótido que determine la unión de la proteína a una secuencia de ADN determinada (como por ejemplo ocurre en los apareamientos entre los pares de bases en el ADN). Sin embargo, algunos tipos de interacción aminoácido-nucléotido aparecen con mucha más frecuencia que otros. De esta forma, y con el objetivo de representar las preferencias de unión de los TFs, surgieron los llamados motivos de regulación. Dado un TF, sus preferencias de unión se representan mediante una matriz que indica, para cada posición del sitio de unión (BS, del inglés binding site), la afinidad que presenta cada nucleótido. Dichas matrices se obtienen normalmente de alineamientos de los TFBSs conocidos para ese TF. Aunque se han propuesto diferentes representaciones para los motivos [7], la más extendida consiste en matrices que recogen para cada nucleótido su frecuencia de aparición en cada posición (PFMs, del inglés position frequency matrices), o bien matrices de pesos que proporcionan un valor ponderado de afinidad para cada posición de la unión entre el motivo y una secuencia de ADN (PWMs, del inglés position weighted matrices). La identificación de los TFBSs es por tanto una tarea esencial para predecir la regulación de la transcripción. Así, durante los últimos años se han propuesto una gran cantidad de algoritmos para la búsqueda de TFBSs (ver el trabajo referenciado en [3]). Todos estos programas predicen un número muy elevado de XV Congreso Español Sobre Tecnologías y Lógica Fuzzy 453

Cuadro 1: Ejemplo de PFM. # 1 2 3 A 0,7 0,2 0 C 0,1 0 1 G 0 0 0 T 0,2 0,8 0 BSs para un TF dado (en media un BS cada 1000pb), incluyendo un alto porcentaje de falsos positivos [16]. Este problema se hace aún más crítico cuando se consideran simultáneamente varios TFs, circunstancia muy normal en este tipo de estudios. Los algoritmos existentes llevan a cabo diferentes estrategias para superar los problemas del resto de propuestas, lo que conlleva por lo general la aparición de otras limitaciones. Un enfoque bastante extendido consiste en aplicar varios algoritmos simultáneamente, proporcionando como salida un compendio obtenido de los resultados individuales de cada algoritmo. En este caso, los motivos encontrados por los distintos algoritmos pueden o bien corresponder al mismo TFBS, o a diferentes TFBSs, haciendo que el resultado de su combinación sea muy impreciso y ruidoso. Todo esto muestra la necesidad de desarrollar nuevos métodos de comparación entre motivos. La estrategia más comúnmente empleada para comparar dos motivos, consiste en considerar las columnas de las matrices como distribuciones de probabilidad. Así, diferentes técnicas estadísticas son empleadas para comprobar si las columnas pertenecen a la misma distribución o no. Las propuestas de este tipo más populares se basan en el coeficiente de correlación de Pearson (PCC) [9], en la implementación del average log-likelihood ratio (ALLR) [15], y en una adaptación del test chi-cuadrado de Pearson (PCST) [13]. La teoría de conjuntos difusos se ha utilizado en numerosas ocasiones en bioinformática. Durante los últimos años, han aparecido diferentes trabajos que integran soluciones difusas para resolver problemas biológicos, como por ejemplo el análisis de microarrays, localización de proteínas, estudio de genomas, etc., obteniendo todos ellos resultados prometedores [8, 4, 6]. Además, cuantificar la similitud empleando técnicas difusas es un tema crucial del razonamiento aproximado. Así, las medidas de similitud difusas se han aplicado de forma satisfactoria en diferentes areas tales como sistemas expertos, recuperación de información o sistemas inteligentes de bases de datos [2]. En nuestro caso, los conceptos difusos son especialmente apropiados para la comparación y detección de motivos. Por ejemplo, un TF dado se une por lo general a más de un TFBS, presentando además más afinidad por unos patrones de ADN que por otros. Así, en la representación matricial de los motivos, las preferencias de unión de cada posición (columna), pueden modelarse como grados de pertenencia a cuatro conjuntos, uno por cada nucleótido de ADN (A, C, G, T). En este trabajo presentamos un estudio de diferentes medidas de similitud difusas aplicadas a la comparación de motivos. Se analiza el comportamiento de distintos tipos de medidas clásicas aplicadas a los conjuntos difusos, medidas tales como las basadas en teoría de conjuntos (método de Jaccard [5]), basadas en proximidad (r-métrica de Minkowsky [17]), y basadas en el coeficiente angular (distancia de Bhattacharyya [1]). Del mismo modo, se considera también en este estudio una medida propuesta recientemente de disimilitud orientada a secuencias de ADN [14]. Además, se propone la ponderación de las posiciones de los motivos en función del grado de conservación como una mejora a tener en cuenta en futuros desarrollos de medidas para motivos de ADN. 2. Métodos 2.1. Otras medidas En los últimos años se han propuesto diversas medidas para la comparación de motivos. Esta sección propone un breve repaso de las medidas más utilizadas. Las medidas se calculan una vez seleccionado el alineamiento óptimo entre dos motivos (considerando el alineamiento de las secuencias y de sus secuencias inversas y complementarias). Todas las medidas se calculan a partir de la comparación columna a columna. De aquí en adelante, supongamos que C 1 = (A C1, C C1, G C1, T C1 ) y C 2 = (A C2, C C2, G C2, T C2 ) son las dos columnas de las PFMs que van a ser comparadas, b C1 y b C2 (b B, B = {A, C, G, T }) son las probabilidades de la base b en C 1, y C 2. N bc1 y N bc2 representan la frecuencia de la base b en C 1 y C 2. 2.1.1. Coeficiente de correlación de Pearson. En [9], Pietrokovski propone el coeficiente de correlación de Pearson para la comparación de columnas de motivos: P CC = (b C 1 C 1 )(b C2 C 2 ) (b C1 C 1 ) 2 (b C2 C 2 ) 2, (1) donde C 1 y C 2 son la media de las columnas C 1 y C 2. Las correlaciones de todas las columnas se agregan mediante la media. 454 XV Congreso Español Sobre Tecnologías y Lógica Fuzzy

2.1.2. Promedio de máxima verosimilitud logarítmica Wang and Stormo ([15]) definen el estadístico del promedio de máxima verosimilitud logarítmica (Average log-likelihood ratio -ALLR-) para efectuar la comparación de motivos por columnas. ALLR se define como: N b C1 log ALLR = ( ) bc2 p b + ( N bc1 b C2 log (N b C1 + N bc2 ) p b ) (2) donde p b es la probabilidad a priori para la base b. Para comparar una secuencia de varias columnas se promedia el valor individual obtenido para cada columna. 2.1.3. Test χ 2. Schones et al proponen en [13] el uso del test χ 2 para comparar motivos. Este test se calcula bajo la asunción de que las columnas son observaciones de la misma distribución. El p-valor se calcula del siguiente valor χ 2 con 3 grados de libertad: χ 2 = j=c 1,C 2 (Njb o N jb e )2, (3) N e jb donde Njb o es la frecuencia observada de la base b en la posición j, y Njb e es la frecuencia esperada de la base b en la posición j (ver [13] para más detalles). El p-valor es considerado una medida aditiva. 2.2. Medidas Difusas Para situar este trabajo en contexto, hemos seleccionado cuatro medidas de similitud difusa de amplia difusión. Todas ellas excepto la última son medidas de comparación columna a columna, por lo que seguiremos empleando la notación anterior. La notación empleada para la última medida sigue las directrices de la Sección 2.2.4. 2.2.1. Basada en la teoría de conjuntos: coeficiente de Jaccard El coeficiente de Jaccard es un coeficiente de similitud que no requiere parámetros [5]. El coeficiente de Jaccard para dos columnas de una PFMs se calcula como sigue: S J (C 1, C 2 ) = b C1 b C2 max (b C1, b C2 ). (4) Para PFMs compuestas por múltiples columnas se calcula el promedio de los coeficientes de Jaccard obtenidos., 2.2.2. Basada en el coeficiente angular: distancia de Bhattacharyya La distancia de Bhattacharyya mide el coseno del ángulo entre dos vectores cuando los valores de cada vector se normalizan como la desviación de la media de la función de pertenencia [1]. Este coseno se toma como medida de similitud. En el caso de dos columnas de PFMs: S B (C 1, C 2 ) = (b C 1 b C2 ) ( (b C 1 ) 2) 1 ( 2 (b C 2 ) 2). 1 2 (5) Para comparar múltiples columnas se promedian los coeficientes obtenidos para cada una de las columnas individuales. 2.2.3. Medida de proximidad: r-métrica de Minkowsky La distancia entre la función de pertenencia parcial de los conjuntos difusos A y B en un universo finito U = {u 1, u 2,..., u n } puede ser calculada utilizando la r-métrica de Minkowsky [17]. Un conjunto difuso A se representa como un punto (µ A (u 1 ),..., µ A (u n )) en el espacio n-dimensional. En nuestro caso U = {A, C, G, T } y la distancia se calcula como: d r (C 1, C 2 ) = ( b C1 b C2 r ) 1 r, r 1, (6) con r = 1, d r equivale a la distancia de Hamming; con r = 2, a la distancia Euclídea; y con r =, a la conocida como dominance metric. En [2] puede obtenerse más información sobre esta materia. Aunque la elección del valor óptimo de r requiere de un amplio estudio, en este trabajo seleccionamos r = 1,3 ya que ha proporcionado los resultados más consistentes en la amplia experimentación llevada a cabo. De nuevo, en caso de comparar varias columnas se calcula el promedio de los valores obtenidos para cada columna. 2.2.4. Orientadas a las secuencias de ADN En [14] las cadenas de polinucleótidos se transforman en conjuntos ordenados difusos para definir el denominado espacio difuso de polinucleótidos (fuzzy polynucleotide space -FPS-). En este trabajo también se propone una medida difusa para las secuencias de ADN basado en las ideas de [10]. Para calcular esta medida, los autores proponen la controvertida idea 1 de mapear las PFMs en un punto 1 Esta idea fue posteriormente discutida por Sadegh- Zadeh en [11] aunque los autores obtuvieron resultados prometedores en [14]. XV Congreso Español Sobre Tecnologías y Lógica Fuzzy 455

del espacio 12-dimensional (0, 1) 12. Este mapeo convierte las matrices PFMs del Cuadro 1 en M T = (0,7; 0,1; 0; 0,2; 0,2; 0; 0; 0,8; 0; 0; 1; 0). La medida del espacio difuso de polinucleótidos (FPSM) para dos matrices PFMs se define como: F P SM(M 1, M 2 ) = 12 i=1 M 1 i M 2i 12 i=1 max (M 1 i, M 2i ), (7) donde M 1 y M 2 son el mapeo de las dos matrices PFMs que se comparan. Ver [14] para más detalles. 3. Resultados y Discusión 3.1. Comparación entre medidas Para medir la bondad de los distintos métodos propuestos en la sección anterior, comparamos los resultados obtenidos en la diferenciación de motivos. Para simular esta situación, generamos conjuntos de columnas de motivos obtenidas a partir de distribuciones diferentes. De esta forma, generamos 25 columnas semilla aleatorias y, correspondientemente, obtuvimos 25 conjuntos de datos derivados de ellas. Para evitar desviaciones en la generación de los datos, la distribución del contenido de la información (IC, del inglés information content) en las 25 semillas se mantuvo uniformemente distribuida en el intervalo (0,01, 2). Para cada semilla, obtuvimos 50000 columnas derivadas de ella que consideramos como verdaderos positivos (VPs). Para cumplir con las caracterísiticas reales de los motivos, dichas columnas se obtuvieron muestreando su semilla correspondiente en una distribución de Dirichlet con una tamaño de muestra aleatorio entre 25 y 35 [13]. De manera similar, se generaron diferentes conjuntos de verdaderos negativos (VNs). Los pasos fueron los mismos a excepción de que suprimimos el muestreo de la columna aleatoria. Finalmente, medimos la efectividad de los distintos métodos en el siguiente experimento: para cada una de las 25 columnas semilla, calculamos la similitud de la semilla en cuestión y cada una de de las columnas pertenecientes a su conjunto de VPs correspondiente, junto con la similitud a cada una de las columnas del conjunto de VNs. Consideramos que el método en cuestión obtuvo un acierto cuando la similitud más alta es asociada a una columna de los VPs. En la Figura 1 se muestra la curva característica operativa del receptor (ROC, del inglés Receiver Operating Characteristic) de cada método para un valor de la razón de falsos descubrimientos (FDR, del inglés False Discovery Rate) de 0,01. Todos los métodos presentan buenos resultados cuando el IC aumenta. Sin embargo, las medidas difusas obtienen mejores resultados para valores bajos Cuadro 2: Distribución de JASPAR Familia Motivos Familia Motivos ETS 7 TRP 5 FORKHEAD 8 HMG 6 BHLH 10 HOMEO 8 bzip EBP 4 NUCLEAR 8 MADS 5 bzip CREB 4 REL 6 de IC. Se puede observar como la medida PCC obtiene los peores resultados mientras que ALLR y χ 2 se comportan de manera inestable. Figura 1: Curva de ROC para los distintos métodos correspondiente al reconocimiento de columnas de PFMs generadas por la misma distribución 3.2. Agrupación de motivos Con el objetivo de comprobar la habilidad de las medidas para reconocer motivos reales relacionados, hicimos uso de la base de datos pública JASPAR [12]. JASPAR contiene 71 motivos divididos en 11 familias en función de las propiedades estructurales de los TFs (Cuadro 2). Los representantes de cada familia son conocidos como FBPs (del inglés familial binding profiles). Para cada familia, obtuvimos su correspondiente FBP mediante un alineamiento múltiple de los motivos de la familia en cuestión. Finalmente, para cada uno de las medidas propuestas, calculamos la similitud de cada motivo con su correspondiente FBP. En el caso de que la medida se trate de una distancia, convertimos el valor en una similitud normalizando la distancia D en (0, 1) para posteriormente obtener la similitud S como S = 1 D. El Cuadro 3 muestra la similitud media obtenida para cada medida en cada familia de JASPAR. Se puede observar cómo las me- 456 XV Congreso Español Sobre Tecnologías y Lógica Fuzzy

Cuadro 3: Media de las distancias para los miembros de las familias JASPAR y sus FBPs Familia Jac. FPSM Mink. Ang. χ 2 ALLR Difusa Sí Sí Sí Sí No No ETS 0.63 0.62 0.71 0.75 0.19 0.71 Forkhead 0.46 0.45 0.55 0.02 0.01 0.05 bhlh 0.57 0.54 0.64 0.24 0.02 0.43 EBP 0.64 0.63 0.72 0.25 0.11 0.62 MADS 0.62 0.61 0.69 0.04 0.01 0.70 REL 0.70 0.68 0.76 0.27 0.19 0.77 TRP 0.50 0.49 0.58 0.26 0.03 0.17 HMG 0.55 0.54 0.65 0.90 0.05 0.50 HOMEO 0.47 0.47 0.59 0.73 0.02 0.37 Nuclear 0.45 0.44 0.53 0.91 0.01 0.07 CREB 0.70 0.69 0.77 0.09 0.26 0.92 Mean 0.57 0.55 0.65 0.41 0.08 0.48 didas Angular, PCC y ALLR proporcionan los peores resultados 2. Por otro lado las medidas Jaccard y FPSM obtienen resultados robustos para todas las familias. Sin embargo, la métrica de Minkowsky es la que muestra un mejor comportamiento. Usando un paired t-test, la hipótesis de que las similitudes obtenidas por la métrica de Minkowsky no son menores que aquellas obtenidas por las medidas Jaccard o FPSM se puede rechazar con un p-value de p 0,01. 3.3. Ponderación de las posiciones Uno de los principales problemas que presentan las medidas de comparación de motivos, es que no están diseñadas para tener en cuenta la diferente influencia de las posiciones según su grado de conservación. Aquellas posiciones con bajo grado de conservación no contribuyen a la unión de las proteínas a la secuencia específica de ADN. Estas posiciones deben ser por tanto menos relevantes al medir la similitud entre motivos. Por otra parte, aquellas posiciones con un alto grado de conservación son críticas para determinar la dicha similitud. Siguiendo estas ideas, incorporamos a la medida de similitud entre motivos, no sólo las diferencias entre las posiciones de los mismos, sino también sus correspondientes grados de conservación. Así, proponemos la FWMM (Fuzzy Weighted Motif Measure), una versión 2 Los resultados de la medida PCC no se muestran por motivos de espacio. ponderada de la métrica de Minkowsky que definimos como: ( F W MM r (C 1, C 2 ) = ( b C1 b C2 máx(b C1, b C2 )) r ) 1 r (8) donde máx(b C1, b C2 ) es la frecuencia de ocurrencia máxima de la base b en las columnas C 1 y C 2. Multiplicando este factor por la diferencia entre las frecuencias observadas se obtiene el efecto deseado, es decir, ponderar cada posición de acuerdo con su especificidad: cuanto mayor sea la especificidad, mayor será la diferencia. El valor de la medida para motivos que contengan varias posiciones se obtiene calculando la media de las comparaciones columna-columna. Tal y como se describió en la sección anterior, variaciones de r dan lugar a medidas distintas formalmente equivalentes. Por claridad y consistencia, seguiremos utilizando r = 1,3 en el resto del trabajo, y llamaremos FWMM a F W MM 1,3 en lo que sigue. Para demostrar la importancia de la ponderación de las posiciones de los motivos diseñamos el siguiente experimento. Definimos un motivo de referencia compuesto por tres posiciones bien conservadas y tres posiciones no conservadas. Las posiciones impares fueron generadas a partir de permutaciones del vector (10, 2, 2, 2), mientras que el vector (4, 4, 4, 4) se usó en las posiciones pares. Seguidamente examinamos el comportamiento de las medidas al comparar el motivo de referencia con otros dos motivos: i) Un motivo compuesto por seis posiciones no conservadas. Por lo tanto, dicho motivo será igual al de referencia en las posiciones pares, mientras que será muy diferente en las posiciones impares; ii) Un motivo compuesto en las posiciones impares por las mismas columnas que el motivo de referencia, mientras que en las posiciones pares nos encontramos con permutaciones del vector (7, 7, 1, 1), que difieren de aquellas en el motivo de referencia. La Figura 2(a) muestra los logos para los tres motivos. Como se puede observar, las diferencias globales entre los dos motivos y el motivo de referencia son las mismas. Ambos son iguales en la mitad del motivo y difieren en la otra mitad. Además, estas diferencias están equilibradas en el sentido de que la diferencia entre los vectores (7, 7, 1, 1) y (4, 4, 4, 4) (diferencias con respecto al motivo conservado) es la misma que entre los vectores (4, 4, 4, 4) y (10, 2, 2, 2) (diferencias con respecto al motivo no conservado). Finalmente, investigamos los resultados obtenidos por los diferentes métodos en dos casos: a) distancia del XV Congreso Español Sobre Tecnologías y Lógica Fuzzy 457

motivo de referencia al motivo no conservado, y b) distancia del motivo de referencia al motivo conservado. De acuerdo con lo explicado arriba, se esperaba que el motivo conservado estuviera más cercano al motivo de referencia que el no conservado. Comprobamos los resultados de cada método calculando el cociente de la distancia para el caso a) y el caso b). En la Figura 2(b) se observa cómo la medida difusa ponderada se comporta de una manera mucho mejor que el resto de los métodos, mientras que tres de las medidas (χ 2, ALLR, y PCC) obtuvieron el resultado erróneo de asignar una distancia menor para el caso a). [5] Jaccard, P. Nouvelles recherches sur la distribution florale, Bulletin de la Societe de Vaud des Sciences Naturelles, 44, pp. 223, 1908. [6] Lopez, F.J. et al. Fuzzy association rules for biological data analysis: a case study on yeast, BMC Bioinformatics, 1:9, 2008. [7] Osada, R. et al. Comparative analysis of methods for representing and searching for transcription factor binding sites, Bioinformatics, 20, pp. 3516-3525, 2004. [8] Pan, Y. Advances in the Discovery of cis- Regulatory Elements, Current Bioinformatics, 1, pp. 321-336, 2006. [9] Pietrokovski, S. Searching databases of conserved sequence regions by aligning protein multiplealignments, Nucleic Acids Res. 24, pp. 3836-3845, 1996. [10] Sadegh-Zadeh, K. Fuzzy genomes, Artif. Intell. Med., 18, pp. 1-28, 2000. [11] Sadegh-Zadeh, K. The fuzzy polynucleotide space revisited, Artif. Intell. Med., 41, pp. 69-80, 2007. [12] Sandelin, A. et al. JASPAR: An open-access database for eukaryotic transcription factor binding profiles, Nucleic Acids Res., 32: D91-D94, 2004. Figura 2: A) Representacin de los motivos. B) Ratio de las distancias para cada medida. Agradecimientos Este trabajo se ha llevado a cabo como parte de los proyectos P08-TIC-4299 J.A., Sevilla y TIN2009-13489 DGICT, Madrid. Referencias [1] Bhattacharya, A. On a measure of divergence of two multinomial populations, Sankhya, 7, pp. 401-406, 1946. [2] Cross V. and Sudkamp, T. Similarity and Compatibility in Fuzzy Set Theory: Assessment and Applications, Springer, 2002. [3] Das, M. K. and Dai, H. A survey of DNA motifs finding algorithms, BMC Bioinformatics, 8(Suppl 7), S21, 2007. [13] Schones, D. E. et al. Similarity of position frequency matrices for transcription factor binding sites, Bioinformatics, vol. 21, pp. 307313, 2005. [14] Torres, A. and Nieto, J.J. The fuzzy polynucleotide space: basic properties, Bioinformatics, 5, pp. 587-592, 2003. [15] Wang, T. and Stormo, G. D. Combining phylogenetic data with co-regulated genes to to identify regulatory motifs, Bioinformatics, 19, pp. 2369-2380, 2003. [16] Wasserman, W. and Sandelin, A. Applied bioinformatics for the identification of regulatory elements, Nat Rev Genet, 5:4, pp. 276-287, 2004 [17] Zwick, R. et al. Measures of similarity among fuzzy concepts: a comparative analysis, International Journal of Approximate Reasoning, 1, pp. 221-242, 1987. [4] Huang, Y. and Li, Y. Prediction of protein subcellular locations using fuzzy k-nn method, Bioinformatics, 20, pp. 21-28, 2004. 458 XV Congreso Español Sobre Tecnologías y Lógica Fuzzy