Sistemas biométricos multimodales que emplean rasgos audio-visuales

Sstemas bométrcos multmodales que emplean rasgos audo-vsuales MSc. Susana C. Romanz Grupo de Investgacón en Segurdad de las Tecnologías de Informacón y Comuncacones Facultad Regonal Santa Fe - Unversdad Tecnológca Naconal sromanz@frsf.utn.edu.ar Resumen. Se observa en la actualdad una tendenca muy marcada al empleo de técncas bométrcas (las que ncluyen rostro, huellas dgtales, geometría de la mano, rs, patrones de retna, frma y voz, entre los más destacados en los sstemas de dentfcacón/autentcacón de personas. Todas estas técncas presentan dferentes grados de sngulardad, permanenca, mensurabldad, desempeño, aceptaccón del usuaro y robustez. Por otra parte, dferentes nvestgacones sobre sstemas bométrcos multmodales han demostrado que medante su empleo es posble mejorar la carencas de cualquer sstema bométrco unmodal, por lo que desde hace algunos años, prolferan las propuestas para el empleo de dos o más métodos bométrcos ndependentes. En el presente trabajo se analzan aspectos sgnfcatvos de estos métodos y aproxmacones y se desarrollan breves reseñas, a partr de la búsqueda bblográfca. Los aspectos abordados ncluyen la fusón de nformacón (ponendo el acento especalmente en la dentfcacón y verfcacón audo-vsual de personas, y las técncas adaptatvas y no-adaptatvas para la decsón de verfcacón (utlzando nformacón de habla y de rostro en condcones de audo con rudo. Palabras Claves: bometría, bometría multmodal, segurdad de la nformacón.. INTRODUCCIÓN Se observa en la actualdad una tendenca muy marcada al empleo de técncas bométrcas (las que ncluyen rostro, huellas dgtales, geometría de la mano, rs, patrones de retna, frma y voz, entre los más destacados en los sstemas de dentfcacón/autentcacón de personas. Todas estas técncas presentan dferentes grados de sngulardad, permanenca, mensurabldad, desempeño, aceptaccón del usuaro y robustez []. Un sstema de verfcacón bométrca (o autentcacón en la jerga de la segurdad de la nformacón verfca la dentdad de un reclamante en base a atrbutos bométrcos de una persona. Además de las dferentes formas de control de acceso (por ejemplo, control fronterzo, acceso a nformacón, los sstemas de verfcacón tambén resultan de utldad en trabajos forenses, en los que la tarea consste en determnar s un muestra bométrca dada pertenece a un determnado sospechoso. Por otra parte, dferentes nvestgacones sobre sstemas bométrcos multmodales han demostrado que medante su empleo es posble mejorar la carencas de cualquer sstema bométrco unmodal, por lo que desde hace algunos años, prolferan las propuestas para el empleo de dos o más métodos bométrcos ndependentes: combnando evdenca de la verfcacón de un hablante y el reconocmento de su rostro [], empleando un esquema de fusón a nvel abstracto denomnado -from-3-approach, en el que se ntegran rostro, movmento de labos y habla, que se basa en el prncpo de que las personas utlzan múltples ndcos para dentfcar a una persona [3], empleando una estratega de ntegracón que se focalza en múltples vstas nstantáneas de una únca propedad bométrca utlzando un framework bayesano [4], combnando datos bométrcos (por ejemplo voz grabada con datos no-bométrcos (por ejemplo una contraseña [5], ntegrando dentro de un sstema bométrco multmodal rostro, huella dgtal y habla para realzar una dentfcacón personal []. En el presente trabajo se analzan aspectos sgnfcatvos de estos métodos y aproxmacones y se des-

arrollan breves reseñas, a partr de la búsqueda bblográfca. Los aspectos abordados ncluyen la fusón de nformacón (ponendo el acento especalmente en la dentfcacón y verfcacón audo-vsual de personas, y las técncas adaptatvas y no-adaptatvas para la decsón de verfcacón (utlzando nformacón de habla y de rostro en condcones de rudo de audo.. ASPECTOS GENERALES Tradconalmente, se han utlzado las contraseñas (segurdad basada en conocmento y las tarjetas de dentfcacón (segurdad basada en token para restrngr el acceso a dferentes tpos de aplcacones. Sn embargo, se puede fáclmente quebrar la segurdad en las msmas cuando se dvulga una contraseña a un usuaro no autorzado o un ostor roba una credencal. El surgmento de la bometría en el campo de la dentfcacón/autentcacón de personas (segurdad basada en lo que se es permte resolver los problemas que debltan los métodos tradconales de verfcacón. La bometría hace referenca a la dentfcacón (o verfcacón automátca de una persona (o una dentdad reclamada medante el empleo de certos rasgos fsológcos o de comportamento asocados con la persona. Por esta razón, los sstemas bométrcos presentan la ventaja de no poder ser fáclmente robados o compartdos respecto de los métodos tradconales de segurdad. Un sstemas de autentcacón basado en bometría opera en dos modos:. Modo Regstracón (enrollment, en el que se adqueren los datos bométrcos del usuaro utlzando un lector bométrco y se almacenan los datos en una base de datos etquetados con una dentdad del usuaro para facltar la autentcacón.. Modo Autentcacón (authentcaton, en el que nuevamente se adqueren los datos bométrcos del usuaro y el sstema los utlza para dentfcar quén es el usuaro, o para verfcar la dentdad reclamada del usuaro; la dentfcacón comprende la comparacón de la nformacón bométrca adqurda contra plantllas correspondentes a todos los usuaros exstentes en la base de datos, y la verfcacón comprende la comparacón sólo con aquellos datos que corresponden a la dentdad reclamada. En consecuenca, la dentfcacón y la verfcacón son dos problemas dferentes que tenen sus propas complejdades. Un sstema bométrco sle tene cuatro componentes prncpales:. Módulo sensor (sensor module, encargado de la adqusón de los datos bométrcos de un ndvduo.. Módulo de extraccón de característcas (feature extracton module, en el cual se procesan los datos adqurdos para extraer los valores de la característca. 3. Módulo de correspondenca (matchng module, en el que se comparan los valores de característca contra los almacenados para generar un puntaje de correspondenca. 4. Módulo de toma de decsón (decson-makng module, encargado de establecer la dentdad del usuaro o de aceptar/rechazar una dentdad reclamada en base al puntaje de correspondenca generado en el módulo de correspondenca. El desempeño de un sstema bmétrco se puede medr medante reportes FAR -False Acceptance Ratey FRR -False Rejecton Rate- en dferentes umbrales. Estos dos factores generalmente se representan en una curva ROC -Recever Operatng Characterstc-; alternatvamente, se puede grafcar la tasa de aceptacón genuna con respecto a la FAR. Tanto FAR como FRR se computan generando todos los puntajes de correspondenca genunos y los de ostor, y luego se establece un umbral para decdr s aceptar o rechazar una correspondenca. Se obtene un puntaje de correspondenca genuna cuando se comparan dos vectores de característca que corresponden al msmo ndvduo, y se obtene un de correspondenca de ostor cuando se comparan vectores de característca que corresponden a dos ndvduos dferentes. El desempeño de un sstema bométrco se ve fuertemente afectado por la confabldad del sensor que

se utlce y los grados de lbertad que ofrecen las característcas extraídas de la señal sensada. Además, s el rasgo bométrco sensado o meddo presenta rudo (por ejemplo, una huella dgtal con una ccatrz o un voz alterada por un resfrío, el puntaje de correspondenca resultante que calcule el módulo de correspondenca no será confable. Dcho de manera sle, el puntaje de correspondenca generado por una entrada rudosa posee una ampla varacón; este problema se puede resolver medante la nstalacón de múltples sensores que capturen dferentes rasgos. Se espera que estos sstemas, conocdos como sstemas bométrcos multmodales, resulten más confables debdo a la presenca de múltples porcones de evdenca; asmsmo, estos sstemas son capaces de satsfacer los requermentos severos de desempeño uestos por algunas aplcacones. Los sstemas bométrcos multmodales resuelven el problema de la no-unversaldad, ya que es posble que un subconjunto de usuaros no posea una bometría partcular; por ejemplo, el módulo de extraccón de característcas de huellas dgtales puede ser ncapaz de extraer característcas de huellas dgtales asocadas con ndvduos específcos debdo a la pobre caldad de los surcos; en tales crcunstancas, resulta útl adqurr múltples rasgos bométrcos para la verfcacón de una dentdad. Además proveen meddas ant-falsfcacón, dfcultándole las accones al ntruso, que debe falsfcar smultáneamente múltples rasgos bométrcos. Y al solctarle al usuaro la presentacón de un subconjunto aleatoro de rasgos bométrcos, el sstema asegura que un usuaro vvo está presente en el punto de adquscón. Pero estos sstemas requeren de un esquema de ntegracón para fusonar la nformacón presentada por las modaldades partculares. 3. RESEÑA SOBRE LA FUSIÓN DE INFORMACIÓN Hablando en térmnos amplos, fusón de nformacón (nformaton fuson comprende cualquer área que se ocupa de la utlzacón de una combnacón de dferentes fuentes de nformacón, ya sea para generar una formato representaconal o para tomar una decsón. Esto ncluye: construccón de consenso, teoría de decsón en equpo, ntegracón de múltples sensores, fusón de datos multmodales, combnacón de múltples expertos/clasfcadores, deteccón dstrbuda, y toma de decsones dstrbuda. Los prmeros trabajos sobre la matera aparecen a prncpos de los años 80. [6,7,8,9]. Cuando se lo analza desde el punto de vsta de la toma de decsones, exsten varos motvos por los que utlzar fusón de nformacón: Utlzacón de nformacón complementara (por ejemplo, audo y vdeo pueden reducr las tasas de error. Empleo de múltples sensores (es decr, redundanca puede ncrementar la confabldad. Costo de lementacón reducdo por el empleo de varos sensores más baratos que un únco sensor de costoso. Sensores físcamente separados, permtendo la adqusón de nformacón desde dferentes puntos de vsta. Las personas emplean a daro la fusón de nformacón; algunos ejemplos que se pueden menconar son: el uso de ambos ojos, ver y escuchar el msmo objeto, o ver y escuchar a una persona hablar (lo cual mejora la ntelgbldad en ambentes rudosos. Exsten dferentes métodos para realzar la fusón de nformacón, los que se suelen dvdr en varas categorías: fusón a nvel de datos de sensor, fusón a nvel de característcas, fusón de puntaje, y fusón de decsón. No obstante, resulta más ntutvo clasfcarlos en tres categorías prncpales: Fusón pre-mapeo. La nformacón se combna antes de cualquer empleo de expertos o clasfcadores. Fusón en medo del mapeo. La nformacón se combna durante el mapeo desde el espaco sensor-data/característca haca el espaco opnón/decsón.

Fusón post-mapeo. La nformacón se combna luego del mapeo desde el espaco sensordata/característca haca el espaco opnón/decsón (en este caso el mapeo se realza medante la combnacón de expertos o clasfcadores en cada posble decsón. En la fusón pre-mapeo, exsten dos sub-categorías prncpales: Fusón a nvel de datos de sensor. Fusón a nvel de característca. En la fusón post-mapeo, tambén exsten dos sub-categorías prncpales: Fusón de decsón. Fusón de opnón, tambén se la denomna fusón de puntaje. 4. COMPARACIÓN DE MÉTODOS DE FUSIÓN MÁS DIFUNDIDOS EN SISTE- MAS MULTIMODALES Como se sugere en la lteratura (por ejemplo en [0,], los sstemas multmodales más dfunddos que hace uso de bometrías múltples se categorzan en tres arqutecturas de acuerdo a las estrategas utlzadas para la fusón de nformacón (estas categorías son consstentes con las ndcadas para los sstemas de fusón de nformacón generales, que se descrben en la seccón anteror.: Fusón a nvel de extraccón de característcas Fusón a nvel de puntaje de correspondenca Fusón a nvel de decsón Los sstemas se clasfcan de acuerdo a cuán temprano se combna la nformacón provenente de los dferentes sensores durante el proceso de autentcacón. Las autentcacón bométrca es un proceso en cadena [], como se descrbe en la fgura anteror. A contnuacón se analzan cada una de las tres arqutecturas y se analzan las actvdades de nvestgacón relaconadas con las msmas. 3. Fusón en el nvel de extraccón de las característcas En esta arqutectura, la nformacón se extrae desde dferentes sensores, y se la codfca dentro de un vector de característca fusonado; luego, se los compara con plantlla almacenada (la que es asímsmo un vector de característca fusonado que se encuentra almacenado en la base de datos y se le asgna un puntaje de correspondenca, al gual que en un sstema bométrco unmodal. Las búsquedas bblográfcas realzadas no revelan la exstenca de nvestgacones sgnfcatvas recente relatvas a esta método de fusón, lo que sugere que se lo prefere menos que los otros dos métodos. Esto puede deberse a dos problemas que presenta:. los vectores de característca que se deben fusonar pueden ser ncompatbles (por ejemplo, debdo a problemas numércos o algunos de ellos podrían no estar dsponbles (por ejemplo, en casos donde el usuaro no posee todos los dentfcadores bométrcos; en tanto el prmero de los problemas se puede soluconar con un dseño más complejo del sstema, lo que conduce a un sstema muy fuertemente acoplado, el segundo provoca problemas en la regstracón que ya exsten en los sstemas bométrcos unmodales.

. la generacón del puntaje es problemátca, ya que aún en el caso de un sstema bométrco unmodal, resulta demasdado dfcultoso encontrar un buen clasfcador, es decr, generar un puntaje representatvo basado en la correspondenca de un vector de característca y los datos de una plantlla; cuando se trata de vectores de característca fusonados de grandes dmensones, esto es aún más complcado, ya que la relacón entre los dferentes componentes de dcho vector fusonado puede no ser lnear [3]. 3. Fusón en el nvel de puntaje de correspondenca En un sstema bométrco multmodal que se construye con esta arqutectura, los vectores de característca se crean ndependentemente para cada sensor, y luego se comparan con las plantllas almacenadas en forma separada para cada uno de los rasgos bométrcos. En base a la proxmdad del vector de carac terístca y la plantlla, cada subsstema calcula su propo puntaje de correspondenca. Fnalmente, estos valores ndvduales se combnan en un puntaje total que se pasa al módulo de decsón. El flujo de proceso dentro de un subsstema es el msmo que en un sstema bométrco unmodal, lo que permte el empleo de algortmos ya probados para la extraccón de característcas y la determnacón de correspondenca. Se destacan dos nformes de nvestgacón, [,4], en los que se ncorporan en un únco sstema de autentcacón método de exploracón de rostro, verfcacón de huellas dgtales y exploracon de geometría de mano; en los msmos se emplean métodos ben conocdos para cada dentfcador; luego, se normalzan y combnan los puntajes de correspondenca para las tres modaldades utlzando alguno de los sguentes métodos: Suma ponderada, calcula el promedo ponderado de los puntajes.

Árbol de decsón, emplea para los dferentes puntajes una secuenca de comparacón de umbrales para tomar una decsón de autentcacón. Análss de dscrmnante lnear, transforma los vectores de 3-dmensones de puntajes en un nuevo sub-espaco, en el que está maxmzada la separacón entre los puntajes de las clases reclamante verdadero e ostor; los parámetros óptmos para esta transformacón se calculan en forma antcpada en base a un conjunto de datos de entrenamento. En base a los resultados expermentales, las prmeras conclusones ndcan que el método de suma ponderada logra el mejor desempeño. Además, se suman al sstema reglas de aprendzaje: ncalmente, se asgnan las msmas ponderacones a cada rasgo bométrco, los cuales se modfcan luego cada vez que se utlzan, a los fnes de mnmzar las tasas de falsos postvos y falsos negatvos. S ben la novedad de la estratega que hace uso de ponderacones específcas del usuaro, resulta prometedora su aplcacón para hacer frente a problemas de rasgos bométrcos no-unversales y de la plantlla; s un usuaro no posee certo dentfcador bométrco y sólo posee característcas débles, es posble ajustar la ponderacón para reducr su nfluenca. 3.3 Fusón en el nvel de decsón En esta arqutectura, se toma una decsón de autentcacón separada para cada rasgo bométrco; luego, estas decsones se combnan en un voto fnal. La fusón en el nvel de decsón resulta en una arqutectura de sstema déblmente acoplado, en la que cada subsstema se ejecuta como un sstema bométrco unmodal, lo que hace que resulte muy atractvo para los fabrcantes que muchas veces lo presentan bajo la denomnacón de bometría en capas, concepto que se encuentra respaldado por la aparcón de estándares bométrcos tales como BoAPI [5]. Exsten varadas estrategas para combnar dferentes decsones en una decsón de autentcacón fnal, las que van desde mayoría de votos hasta métodos estadístcos más sofstcados [3]. Tomando como ejemplo a BoNetrx Authentcaton Sute, se tene la sguente combnacón de estrategas (en [6] se ncluye una lsta muy completa de posbles combnacones alternatvas: Operador AND, requere de una decsón postva de todos los módulos de verfcacón; Operador OR, ntenta autentcar al usuaro utlzando un rasgo bométrco; s falla, ofrece otro ntento con otro módulos de verfcacón; Operador RANDOM, seleccona aleatoramente un rasgo bométrco; s ben se trata de una dea muy slsta, hace mucho más dfícl engañar al sstema.

La fusón en el nvel de decsón es una etapa muy tardía del proceso de autentcacón, por lo que se presume que no presenta el msmo potencal de mejora del desempeño del sstema global como la fusón en el nvel de puntaje de correspondenca. 5. SISTEMAS QUE EMPLEAN RASGOS AUDIO-VISUALES A contnuacón se reseñan brevemente las prncpales contrbucones realzadas en este campo, tanto en lo que hace a la dentfcacón como la verfcacón de dentdades de personas. Se dstnguen dos categorías prncpales de métodos: no-adaptatvos y adaptatvos. En el prmero de los métodos, la contrbucón de cada experto se establece a pror, mentras que en el segundo, la contrbucón de al menos un experto varía de acuerdo a su confabldad y capacdad de dscrmnacón en presenca de alguna condcón ambental (por ejemplo, la contrbucón de un experto en habla se decrementa cuando baja la SNR -Sgnal Nose Rato- del audo. 5. Métodos no-adaptatvos La fusón de nformacón de audo y vsual se ha aplcado al reconocmento automatzado de personas desde las prmeras propuestas de sstemas multmodales [7,8,]. En [7], se combna nformacón de mágenes de rostros y grabacones de habla empleando fusón de suma ponderada: f = w o + wo donde o y o son las opnones de los expertos de rostro y de habla, respectvamente, con sus correspondentes ponderacones, w y w. Cada opnón refleja la probabldad de que un reclamante sea el reclamante verdadero (es decr que una opnón baja sugere que el reclamante es un ostor, en tanto que una opnón alta sugere que el reclamente es el reclamente verdadero. Debdo a la restrccón sobre las ponderacones, w =, la ecuacón anteror se reduce a: f = w o = + ( w o La verfcacón de la decsón se logra establecendo umbrales de la opnón fusonada. Los resultados obtendos de EER -Equal Error Rate- al emplear un únco experto (habla 3.4%, rostro 3.0% son sgnfcatvamente superores a los que se obtenen con el empleo de ponderacones óptmas y umbrales (,5%. En [8] se combnan las opnones de un experto de rostro (el que hace uso de característcas obtendas a partr de mágenes estátcas frontales y de un experto de habla, y se emplea el método de producto ponderado: f = ( o w ( w ( o Cuando el experto de habla se utlza solo (es decr, w =, se obtene una tasa de dentfcacón del 5%, mentras que cuando se emplea el experto de rostro solo (es decr, w =0, se obtene una tasa de dentfcacón del 9%; y utlzando una ponderacón óptma, la tasa de dentfcacón llega al 95%. En [] se emplean para la dentfcacón de personas dos expertos de habla (para característcas estátcas y delta y tres expertos en rostro (para las área de ojos, narz y boca, utlzando el método de producto ponderado para la fusón de opnones, donde las ponderacones se determnaban en base a una heurístca. Con los expertos estátco y dnámco, se obtenen tasas de dentfcacón del 77% y 7%, respectvamente; combnando los dos expertos de habla, este valor se ncrementa al 88%. Con los expertos de rostro, se obtenen tasas de dentfcacón del 80%, 77% y 83%, respectvamente; combnándolos, la tasa se ncrementa al 9%. Cuando se combnan los cnco expertos, la tasa de dentfcacón se ncrementa al 98%. En [3] se emplean tres expertos (de rostro frontal, de magen dnámca de labos y de habla dependente del texto, con un esquema de fusón híbrda en el que ntervenen mayoría de votos y fusón de opnón; dos de los expertos deben acordar respecto de la decsón, y la opnón combnada tene que exceder un umbral preestablecdo. Este esquema presenta un mejor desempeño que cuando se utlzan dchos expertos en forma ndvdual.

En [9] se emplea un experto de rostro frontal, que proporcona una opnón para cada una de las mágenes; cuando se utlzan múltples mágenes de una persona para generar múltples opnones, éstas se fusonan medante dferentes esquemas (entre los que se ncluyen un caso especal de fusón por suma ponderada. De demuestra una reduccón en las tasas de errores del 40%, y que las ganancas en el desempeño se tenden a saturar luego de utlzar cnco mágenes; estos resultados sugeren que el uso de una secuenca de vdeo del rostro, en lugar de una magen, provee un desempeño superor. En [0] se ntenta proporconar fundamentos teórcos a los métodos más comunes de fusón, tales como métodos de suma y producto; sn embargo, los autores admten que los supuestos utlzados no son realstas para la mayoría de las aplcacones. Los resultados expermentales para la combnacón de tres expertos (dos de rostro -frontal y perfl- y uno de habla dependente del texto demuestran que el método de suma supera al de producto. En [] se nvestga la combnacón de nformacón de audo (habla y vsual (labos medante concatenacón de vector de característca. A fn de hacer corresponder las tasas de tramas de ambas característcas, se extrae la nformacón de habla a una tasa de 30 fps en lugar de los 00 fps tradconales. En la confguracon dependente del texto, el proceso de fusón presenta una mejora menor en el desempeño; sn embargo, en la confguracón ndependente del texto, el desempeño dsmnuye lgeramente, y se sugere que el método concatenacón de vector de característca es poco fable. En [,3] se emplea una forma de fusón de suma ponderada para combnar dos expertos de opnones: un experto en habla dependente del texto y un experto en labos dependente del texto. Utlzando una ponderacón óptma, la fusón conduce a un mejor desempeño frente respecto del uso de dchos expertos en forma ndependente. En [4] se utlza un experto de huellas dgtales y un experto de rostro frontal, y se emplea un esquema de fusón híbrda que comprende fusón de lsta ordenada y fusón de opnón: las opnones del experto de rostro correspondentes a n dentdades se combnan con las opnones del experto de huella dgtal para las dentdades correspondentes utlzando una forma del método de producto. Se utlza este método híbrdo a los fnes de tener en cuenta la relatva complejdad computaconal del experto de huellas dgtales (sgnfcatvamente más lento. Se demuestra que, en todos los casos testeados, la fusón presenta un mejor desempeño que cuando se emplean cualquer de los expertos solos. En [5] se propone el uso de un post-clasfcador bayesano para alcanzar la decsón de verfcacón; formalmente, la regla se decsón se expresa como: N E N C f > = p( o = E p o class λ, ( = λ, Cotherwse donde C y C son las clases reclamante verdadero e ostor, respectvamente, N E es el número de expertos, en tanto que λ, y λ, son, para el -ésmo experto, los modelos paramétrcos de la dstrbucón de opnones para el reclamante verdadero y el ostor, respectvamente. Debdo a problemas de precsón en una lementacón computaconal, resulta más convenente el empleo de una suma en lugar de seres de multplcacones, y dado que la funcón logarítmca es una funcón monótona crecente, se puede modfcar la regla de decsón de la sguente manera: E N E log p( o = λ, N C f log p( o class = = λ, Cotherwse La regla de decsón anteror, en la práctca, se modfca ntroducendo un umbral a fn de permtr el ajuste de FAR y de FRR: N E N C f > = log p( o = E p o t class λ, log ( = λ, Cotherwse Además, se utlzan tres expertos, observándose que el uso del clasfcador anteror (con dstrbucones Beta proporcona menores tasas de error que cuando se utlzan los expertos solos. Los clasfcadores que se nvestgaron son: SVM (Support Vector Machne, clasfcador bayasano (ut-

lzando dstrbucones Beta, Dscrmnante Lnear de Fsher, Árbol de Decsón y Percepton Multcapa; en cuanto a los expertos, se emplearon tres: un experto de rostro frontal, y dos expertos de habla (dependente e ndependente del texto. Se determna que el clasfcador SVM y el bayasano presenta los mejores resultados. En [6] tambén nvestgan, para la fusón de opnón, varos clasfcadores bnaros y los métodos de fusón mayoría de votos y operadores AND y OR (lo que lleva a la categoría de fusón de decsón. Se utlzan tres expertos: experto de rostro frontal, experto de rostro de perfl y experto de habla ndependente del texto. En el caso de fusón de decsón, cada experto actua como un clasfcar, que provee una decsón dura en lugar de una opnón. Los clasfcadores que se nvestgan son: Árbol de Decsón, Percepton Multcapa, clasfcador basado en Logstc Regresson, clasfcador bayasano utlzando dstrbucones gaussanas, Dscrmnante Lnear de Fsher, y varas formas del clasfcador k-nearest Neghbour. Se determnó que el clasfcador basado en Logstc Regresson proporcona la tasa de errores más baja y que resulta el más fácl de entrenar. En [7] se utlza el método suma ponderada para combnar las opnones de un experto de habla y un experto de labos (ambos ndependentes del texto; el desempeño del prmero se dsmnuye delberadamente varando las cantdad de rudo blanco en los datos de habla. Los resultados expermentales demuestran que s ben el desempeño del sstema sempre es mejor que cuando se emplea sólo el experto de habla, el msmo dsmnuye a medda que se ncrementa el nvel de rudo. De acuerdo a los valores de ponderacón (que se selecconan prevamente, el desempeño con altos nveles de rudo son realmente peores que cuando se utlza el experto de labos solo. Se propone un método basado en estadístcas para la seleccón de las ponderacones, que da por resultado un buen desempeño bajo condcones las, y nunca cae por debajo del desempeño de un experto de labos en condcones rudosas; sn embargo, el desempeño bajo condcones rudosas no fue óptmo. La ponderacón para el experto de habla se calcula de la sguente manera: ς w = donde ς + ς σ ς = + N, σ, N sendo, para el -ésmo experto, ζ el error estándar de la dferenca entre las medas µ, y µ, de las opnones para el reclamos verdadero e ostor, σ, y σ, las correspodentes varanzas, y N y N el número de opnones para los reclamos verdadero e ostor, respectvamente. Se asume que el error estandar representa la ndcacón relatva de la capacdad de dscrmnacón de un experto; cuanto menor varacón exsta en las opnones para reclamos conocdos, menor será el error estandar; y, en consecuenca, un error estandar bajo ndca un mejor desempeño. En [8] se evalúan varacones del Mult-Stream Hdden Markov Models -MS-HMMs-, una forma de fusón en medo del mapeo, en la tarea de dentfcacón de una persona por medos audo-vsuales dependentes del texto. El flujo de audo consta de una secuenca de vectores que contenen Mel Frecuency Cepstral Coeffcents -MFCCs- [9] y sus deltas [30], en tanto que el flujo de vdeo consta de una secuenca de vectores de característca que descrben el contorno de los labos. Debdo a la naturaleza de la lementacón MS-HMM, la tasa de tramas de característcas de vdeo debe concordar con la tasa de tramas de característcas de audo. Se realzan pruebas utlzando una pequeña base de datos audovsuales, las que demuestran que para altos SRNs, el desempeño es comparable con un sstema que sólo emplea HMM de audo, mentras que con bajos SRNs, el sstema mult-flujo presenta un desempeño sgnfcatvamente superor al sstema que sólo utlza audo y excede al desempeño del sstema que sólo empleo vdeo. Este trabajo no ncluye una comparacón con los sstemas que emplean fusón pre-mapeo o post-mapeo, por ejemplo, utlzando dos expertos dferentes y fusón de opnón. En [3] se resuelven varas lmtacones exstentes en los sstemas MS-HMM prevos, permtendo que los dos flujos se encuentren desncronzados en el tempo (debdo a que los eventos relaconados con los flujos pueden comenzar y/o fnalzar en puntos dferentes y que presenten dferentes tasas de tramas. Se

realzan pruebas sobre una pequeña base de datos audo-vsual, y se emplean dos flujos de característcas smlares a los descrptos en [8]; se observa que para SNRs relatvamente altos, el desempeño es peor que cuando se emplea un sstema de audo dependente del texto, mentras que para SNRs menores se mejora el desempeño (y el sstema resulta más robusto que un sstema HMM dependente de texto que emplea concatenacón de vector de característca. 5. Métodos adaptatvos En [3] se extende el trabajo presentado en [7] al proponer un método heurístco para ajustar las ponderacones; los resultados expermentales muestran que, s ben decrese sgnfcatvamente el desempeño a medda que se ncrementa el nvel de rudo, sempre resulta mejor que utlzar solamente el experto de habla; sn embargo, se observa que con nveles altos de rudo, el empleo de ponderacones guales (no-adaptatvo ofrece un mejor desempeño. Una desventaja ortante del método es que el cálculo de las ponderacones demanda encontrar la opnón del experto de habla para todos los reclamos posbles (es decr, todas las personas regstradas en el sstema, lmtando de esta manera la solucón a sstemas que poseen un número reducdo de clentes debdo a consderacones práctcas (es decr, el tempo que demanda verfcar un reclamo. Es más, según se descrbe en [7], se observan lmtacones smlares en ambentes expermentales. En [33], los autores proponen otra técnca heurístca para el ajuste de las ponderacones; en una confguracón dependente del texto, el sstema presenta un desempeño sempre superor al que se tene utlzando solamente el experto de labos; sn embargo, en una confguracón ndependente del texto, bajo condcones de SNR bajo, el desempeño fue peor que cuando se utlza sólo el experto de labos. La ponderacón para el experto de habla se calcula de la sguente manera: ς κ w = donde ς ς κ κ ς ς + ς se calcula según la ecuacón ya ndcada durante la etapa de entrenamento y κ se calcula durante el testeo; para el experto -ésmo, M ( o ( o µ + M ( o = +, (, µ, M,, = es la dstanca undmenso- σ, nal cuadrátca Mahalanobs entre o y el modelo de opnones para los reclamantes verdaderos; además, µ, y σ, son, respectvamente, la meda y la varanza de las oponones para reclamantes verdaderos, los que se determnan durante la fase de entrenamento. De manera smlar M ( o ( o µ,, = es la dstanca undmensonal cuadrátca Mahalanobs entre la σ, opnón o y el modelo de opnones de los ostores; acá, µ, y σ, son la meda y la varanza de las opnones para ostor, respectvamente, se los determna durante la etapa de entrenamento. Bajo condcones las, la dstanca entre una opnón dada para un reclamante verdadero y el modelo de opnones correspondente debe ser pequeña; de manera smlar, la dstanca para un reclamante verdadero y el modelo de opnones para los ostor debería ser grande. Lo nverso se aplca a una opnón dada para un ostor; por ello, bajo condcones las, κ debe ser grande. Se emplea una evdenca empírca para argumentar que bajo condcones rudosas, las dstancas deben dsmnur y por ello κ debe tambén dsmnur. En [34] se propone el sguente método de ajuste de la ponderacón; cada vez que se graba habla, generalmente la declaracón está precedda por un breve segmento que sólo contene rudo ambental; a partr de cada declaracón de entrenamento, se utlzan los MFCCs [35,36] obtendos del segmento de rudo para construr un GMM de rudo global, λ nose ; dado un testeo de habla grabada, se emplean los vectores N x de característca MFFC N nose { } nose, representando al segmento de rudo, para estmar la caldad de la = declaracón medante la medcón del desajuste respecto de λ nose de la sguente manera o

q = N nose N nose = log p( x λ nose Cuanto mayor sea la dferenca entre las condcones de entrenamento y de testeo, menor ha de resultar q; entonces, q se mapea con un valor comprenddo en el ntervalo [0,] utlzando una curva sgmodal, donde a y b descrben la forma de la curva: q map = + exp[ a( q b ] estos valores se selecconan en forma manual de tal manera que q map sea próxmo a para declaracones de entrenamento las, y próxmo a 0 para declaracones de entranamento corrompdas artfcalmente con rudo. S se asume que el experto de rostro es el prmer experto y que el de habla, el segundo, dada una ponderacón preva w,pror para el experto de habla (que se determna sobre datos los, la ponderacón adaptada para el experto de habla se calcula de la sguente manera: w = q map w,pror. Dado que se está utlzando un sstema de dos modaldades, la ponderacón correspondente para el experto de rostro se encuentra utlzando w = - w. Este método de ajuste de ponderacones se denomna deteccón de desajuste. 6. CONCLUSIONES En la actualdad, exste un fuerte consenso entre los nvestgadores y la ndustra que la tecnología multmodal será la pedra angular en el empleo masvo de la bometría en los campos de la dentfcacón/verfcacón de personas. En este trabajo se han reseñado dferentes métodos de abordaje de sstemas bométrcos multmodales, entre los que se destacan nteresantes ntentos por atemperar algunos de los problemas que aún hoy no se ha sdo posble elmnar en los sstemas bométrcos tradconales; de estos ntentos, los más promsoros aparentan ser los que utlzan fusón de nformacón en el nvel de puntaje de correspondenca y que, además, ncluyen ponderacones asocadas a usuaros (o grupos partculares así como umbrales tales como los propuestos en []. Y como ya se planteara anterormente, resulta evdente que la adquscón de múltples dentfcadores bométrcos dfculta sgnfcatvamente las accones que debe realzar un ostor para engañar al sstema de dentfcacón/verfcacón, ya que debe presentar múltples muestras coordnadas creadas artfcalmente. Sn embargo, todos estos benefcos no se logran sn algún tpo de cargo, ya que estos sstemas son menos costosos, y presentan efectos sgnfcatvos sobre sus usuaros, pudendo resultando en una baja aceptacón, en partcular en lo que hace a cuestones de prvacdad y al nconvenente dervado de la adquscón multnvel de datos. Muchas de las arqutecturas más prometedoras hoy aún se encuentran en un estado expermental. Y las tecnologías ya dsponbles poseen arqutecturas multcapas, con un acoplamento débl entre los dferentes subsstemas, a tal punto que algunos casos presentan dferentes nterfaces de usuaro. Por ello, hoy día la ndustra y, muy partcularmente aquellos actores que aguardan que esta tecnología aportes sgnfcatvos que ulsen la masvdad de sstemas de nformacón de segurdad crítca (gobernos, salud, bancos, etc., demandan de los nvestgadores y fabrcantes la aparcón de solucones verdaderamente ntegradas y altamente confables y, que al msmo tempo, mejoren la facldad de uso (más allá del empleo de múltples dentfcadores bométrcos. REFERENCIAS. Jan, A., Bolle, R. and Pankant, S. Bometrcas: Personal dentfcaton n networked socety Ed. Kluwer Academc Publshers. 999.. Brunell, R. and Falavgna, D. Personal dentfcaton usng multple cues IEEE Trans. On Pattern Analyss and Machne Intellgence, Vol. 7, No. 0. 995.

3. Deckmann, U., Plankenstener, P., and Wagner, T. SESAM: A bometrc person dentfcaton system usng sensor fuson. Pattern Recognton Letters, Vol. 8, No. 9. 997. 4. Kttler, J., L, Y., Matas, J. and Sanchez, M. U. Combnng evdence n mult-modal personal dentty recognton systems Proceedngs st Int. Conf. On Audo Vdeo-Based Personal Authentcaton. Crans-Montana. 997. 5. Maes S. and Beg, H. Open sesame! Speech, password or key to secure your door?. Proceedngs 3rd Asan Conference on Computer Vson. Hong Kong. 998. 6. Barnv, H., Casasent, D. Multsensor mage regstraton: Expermental verfcacón. Proceedngs of the SPIE 9. 98. 7. Pau, L.F. Fuson of multsensor data n pattern recognton. Kttler, K., Fu, K.S. and Pau, L.F. Pattern Recognton Theory and Applcatons (Proceedngs of NATO Advanced Study Insttute, D. Redel Publ. Holland. 98. 8. Tenney, R.R., Sandell Jr., N.R. Detecton wth dstrbuted sensors. IEEE Trans. Aerospace and Electronc Systems 7. 98. 9. Tenney, R.R., Sandell Jr., N.R. Strateges for dstrbuted decson makng. IEEE Trans. on Systems, Man and Cybernetcs. 98. 0. Hong, L. et al. Can Multbometrcs Improve Performance?. Proceedngs AutoID. 999.. Ross, A. and Jan, A. K. Informaton Fuson n Bometrcs. Pattern Recognton Letters. 003.. Nanavat, Samr et al. Bometrcs: Identty Verfcaton n a Networked World. Wley Computer Publshng. New York. 00 3. Prabhakar, S. and Jan, A. K. Decson-level Fuson n Bometrc Verfcaton. Pattern Recognton v35 n4. 00. 4. Jan, A. K. and Ross, A. Learnng User-specfc Parameters n a Multbometrc System. Proceedngs Internatonal Conference on Image Processng (ICIP. 00. 5. Tlton, Catherne J. An Emergng Bometrc API Industry Standard. IEEE Computer v33 n. 000. 6. Sper, Mchelle. BoNetrx delvers layered bometrcs sute. Federal Computer Week. 000. 7. Chbelush, C., Derav, F. and Mason, J. Voce and Facal Image Integraton for Speaker Recognton. IEEE Internatonal Symposum and Multmeda Technologes and Future Applcatons. Southampton, UK. 993. 8. Brunell, R., Falavgna, D., Poggo, T. and Strnga, L. Automatc Person Recognton Usng Acoustc and Geometrc Features. Machne Vson & Applcatons, Vol. 8. 995. 9. Hall, D. and Llnas, J. Multsensor data fuson. D. L. Hall and J. Llnas (Eds., Handbook of Multsensor Data Fuson, CRC Press. USA. 00. 0. Ho, T., Hull, J. and Srhar, S. Decson combnaton n multple classfer systems. IEEE Trans. Pattern Analyss and Machne Intellgence 6. 994.. Hong, L. and Jan, A. Integratng Faces and Fngerprnts for Personal Identfcaton. IEEE Trans. Pattern Analyss and Machne Intellgence 0. 998.. Hagh, J. and Mason, J. A voce actvty detector based on cepstral analyss. Proceedngs European Conf. Speech Communcaton and Technology. 993. 3. Hagh, A. Voce Actvty Detecton for Conversatonal Analyss. Masters Thess, Unversty of Wales. 994. 4. Furu, S. Recent advances n speaker recognton Pattern Recognton Letters 8. 997. 5. Abdeljaoued, Y. Fuson of person authentcaton probabltes by Bayesan statstcs. Proceedngs nd Int. Conf. Audo- and Vdeo-based Bometrc Person Authentcaton. Washngton D.C. 999. 6. P. Verlnde, P. A contrbuton to mult-modal dentty verfcaton usng decson fuson. PhD Thess, Department of Sgnal and Image Processng, Telecom Pars. France. 999. 7. Wark, T., Srdharan, S. and Chandran, V. Robust speaker verfcaton va fuson of speech and lp modaltes Proceedngs Internatonal Conf. Acoustcs, Speech and Sgnal Processng. Phoenx. 999. 8. Wark, T., Srdharan, S. and Chandran, V. The use of temporal speech and lp nformaton for mult-modal speaker dentfcaton va multstream HMM s. Proceedngs Internatonal Conf. Acoustcs, Speech and Sgnal Processng. Etambul. 000. 9. Reynolds, D. Expermental evaluaton of features for robust speaker dentfcaton. IEEE Trans. Speech and Audo Processng. 994. 30. Soong, F. and Rosenberg, A. On the use of nstantaneous and transtonal spectral nformaton n speaker recognton. IEEE Trans. Acoustcs, Speech and Sgnal Processng 36. 988. 3. Bengo, S. Multmodal authentcaton usng asynchronous HMMs. Proceedngs 4th Internatonal Conf. Audo- and Vdeobased Bometrc Person Authentcaton. Guldford. 003. 3. Wark, T., Srdharan, S. and Chandran, V. Robust speaker verfcaton va asynchronous fuson of speech and lp nformaton. Proceedns nd Internatonal Conf. Audo- and Vdeo-based Bometrc Person Authentcaton. Washngton, D.C. 999. 33. Wark, T. Mult-modal speech processng for automatc speaker recognton. PhD Thess, School of Electrcal & Electronc Systems Engneerng, Queensland Unversty of Technology. Brsbane. 000. 34. Sanderson, C. and Palwal, K. Nose compensaton n a person verfcaton system usng face and multple speech features. Pattern Recognton 36 (. 003. 35. Pcone, J. Sgnal modelng technques n speech recognton. Proceedngs of the IEEE 8. 993. 36. Reynolds, D. Expermental evaluaton of features for robust speaker dentfcaton. IEEE Trans. Speech and Audo Processng. 994.