La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció Desenvolupament històric 1954 Estats Units: primer prototitpus d un sistema real de traducció automàtica 1976 Canadà: METEO (informes metereològics anglès-francès) 1976 Comissió Europea: SYSTRAN (francèsanglès i més parelles de llengües posteriorment) Desenvolupament històric 1970-1980 Europa: EUROTRA 1980-1990: Consolidació dels sistemes de traducció automàtica basats en la transferència 1990-2000: Comercialització de programes basats en traducció directa 2000 -: Traducció en xarxa
La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció Límits de la traducció automàtica La informació a es complementa amb inferències basades en el coneixement del món Els pingüins poden nedar però no volen Els nens poden nedar però no volen Dificultat de programar l extensió i la complexitat del coneixement del món La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement
Tipus de sistemes de traducció automàtica Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement Sistemes de traducció directa Utilitzen lèxics monolingües i bilingües molt grans (traducció de paraules) Coneixement morfosintàctic molt limitat Sistemes comercialitzats Rapidesa Qualitat de traducció limitada Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement
Sistemes basats en transferència Utilitzen coneixement formalitzat Procés de traducció en tres fases Fase d anàlisi Fase de transferència Fase de generació Sistemes basats en transferència Fase d anàlisi Anàlisi morfològica de cada paraula Anàlisi sintàctica de la frase Arbre que conté Estructura de constituents Informació morfològica (categoria, nombre, gènere ) Informació sintàctica (funció del constituent) Informació semàntica (tipus de nom, verb ) Sistemes basats en transferència Fase de transferència Selecció de la traducció correcta per a cada paraula Transformacions estructurals que s han d aplicar sobre la frase en la llengua d arribada Determinades per l entrada en el lèxic bilingüe Arbre de transferència Paraules en la llengua d arribada Canvis estructurals Sistemes basats en transferència Fase de generació Operacions pròpies de la llengua d arribada Ordre de constituents Inserció o eliminació de material lèxic Generació de formes flexives en funció de la informació present en l arbre Combinació i contracció de certs elements lèxics
Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement Sistemes d interllengua El resultat de l anàlisi de la llengua d origen és una xarxa semàntica (interllengua - interlingua) Entitats representades com un conjunt de trets semàntics (conceptes) Relacions entre entitats En la fase de generació s expressen amb el lèxic i l estructura sintactica de la llengua d arribada els conceptes representats en la interllengua Sistemes d interllengua Sistemes d interllengua Problemes de la interllengua Descripció en forma de trets semàntics de totes les entitats utilitzades en la llengua (noms) juntament amb les seves propietats (adjectius) Representació de totes les possibles relacions (verbs) entre entitats Sistemes possibles en dominis restringits
Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement Sistemes basats en tècniques estadístiques Es parteix de corpus textuals bilingües paral lelitzats per a l entrenament del sistema de traducció Amb tècniques estadístiques es calcula la probabilitat de que un grup de paraules de la llengua d origen tingui com a traducció un grup de paraules de la llengua de destinació Sistemes basats en tècniques estadístiques Bons resultats si es disposa de Quantitat suficient de textos bilingües en paral lel Bon algorisme estadístic per al càlcul de models probabilístics Millors resultats en dominis restringits que amb textos generals Sistemes basats en tècniques estadístiques Problemes amb fenòmens s que suposen dependències entre paraules que es troben molt separades Més problemes com major és la distància tipològica entre les llengües Poc control sobre els errors del sistema i la seva correcció
Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement Memòries de traducció Corpus de frases en la llengua d origen i la seva traducció correcta en la llengua d arribada Cerca de frases en el text que es tradueix iguals o similars a les de la memòria de traducció Útils per a textos repetitius L extensió de la memòria millora el sistema La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció Fases del procés de traducció automàtica Preprocessament del text Identificació i segmentació del text en frases Anàlisi i desambiguació morfològica Anàlisi sintàctica Transferència lèxica Transferència estructural Generació de la frase traduïda Recuperació del format del text original Correcció del text traduït o postedició
Preprocessament del text Adquisició i preparació del text Text en suport magnètic Formats habituals: ASCII, RTF (Rich Text Format), HTML (Hyper Text Markup Language) Segmentació del text en frases Divisió del text en frases (unitats de traducció) Basada en la puntuació però Els punts poden representar abreviatures, xifres, números de secció d un llibre, etc. Anàlisi morfològica Entrada del lèxic monolingüe Proporciona totes les segmentacions i interpretacions possibles de cada paraula Informació extreta del lèxic monolingüe de la llengua d origen Lema Categoria gramatical Informació morfològica
Entrada del lèxic monolingüe Anàlisi morfològica Anàlisi sintàctica Anàlisi sintàctica Basada en les regles de la gramàtica d anàlisi de la llengua d origen Desfà les ambigüitats de l anàlisi morfològica o de l anàlisi sintàctica La porta cap a casa Crea un arbre amb informació lèxica i sintàctica
Transferència lèxica Utilitza el lèxic bilingüe en la llengua d origen i la d arribada per seleccionar la traducció de cada paraula El lèxic bilingüe conté informació sobre les condicions de selecció de les paraules Combina la informació del lèxic bilingüe amb la informació de l arbre d anàlisi Transferència estructural Utilitza informació del lèxic bilingüe: accions associades a la selecció de l entrada Canvis de gènere o nombre Canvis estructurals Generació de la frase traduïda Generació de la frase final partint de l arbre d anàlisi amb les paraules en la llengua d arribada i amb les modificacions estructurals activades pel lèxic bilingüe Ordre de constituents Inserció o elisió de material lèxic Generació de formes flexives Recuperació del format del text original El programa crea un fitxer amb la mateixa disposició que el text original Paràgrafs Taules Columnes Peus de plana.. Es crea un document amb el format del text d entrada
Correcció del text traduït o postedició Revisió per un traductor humà de la qualitat final del text traduït automàticament Idealment: Temps de traducció automàtica + temps de postedició < Temps de traducció manual La traducció automàtica ALONSO, J. A. (2001) "La traducció automàtica", in MARTÍ, M. A. (Coord.) Les tecnologies del llenguatge. Barcelona: Edicions de la Universitat Oberta de Catalunya (Manuals, 53). pp. 86-119; trad. cast.: "La traducción automática", in MARTÍ, M. A. (Coord.) Tecnologías del lenguaje. Barcelona: Editorial UOC (Manuales, Humanidades), 2003. pp. 94-129. ALONSO, J. A. (2007) "Els sistemes de traducció automàtica", Llengua i ús: Revista Tècnica de Política Lingüística 38: 23-32.