Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció

Documentos relacionados
La comunicació lingüística. El llenguatge com a sistema de signes. Aspecte comunicatiu del llenguatge humà

Avaluació de les Competències Bàsiques (sisè d educació primària) Barcelona, 13 de juny de 2014

INS GABRIEL FERRATER. Departament de Matemàtiques. Tasques d estiu per a recuperar la matèria de matemàtiques de 1r curs d ESO.

PROCÉS 29 PROCÉS DE SERVEIS D FP A EMPRESES ENTITATS I ALTRES USUARIS PROCÉS-Q-410-T-29-FP

APRENDRE A INVESTIGAR. Document 1 GLÒRIA DURBAN I ÁNGELA CANO (2008)

UNITAT PLANTILLES I FORMULARIS

AVALUACIÓ DE QUART D ESO

Dimensions Competències que es treballen Continguts clau que es treballen

UML 2. Jordi Coll Caballero Enginyeria del Sofware II, EINF

DESCRIPCIÓ DEL LLOC DE TREBALL

AVALUACIÓ DE SISÈ D EDUCACIÓ PRIMÀRIA CRITERIS DE CORRECCIÓ. Correcció externa. Competència lingüística: Llengua francesa

Grau elemental (B1) Criteris de correcció del grau elemental

PROJECTE PROFESSIONAL

UNITAT LES REFERÈNCIES EN L ÚS DELS CÀLCULS

FLUX DE CAIXA I COST FINANCER A PARTIR DEL

MÚLTIPLES I DIVISORS

2. MORFOLOGIA NOMINAL: Introducció.

Idioma i traducció C5 (portuguès)

El llenguatge és més necessari com més relacions grupals hi hagi entre els éssers vius que l utilitzen.

Índex de diapositives

El sistema de traducció automàtica espanyol català internostrum

MATEMÀTIQUES TERCER I QUART DE PRIMÀRIA

Criteris de correcció de les proves per a la provisió de places de funcionaris docents. Convocatòria 2008

GENOGRAMA DEFINICIÓ El genograma identificar, relacionar i exposar, informació del sistema familiar

Barcelona Activa Iniciativa emprenedora. Informes en profunditat. Benchmarking. Barcelona Activa SAU SPM,

AVALUACIÓ DE QUART D ESO

Jornada de presentació de PISSARRES DIGITALS INTERACTIVES. Crp-Cervera. 15 d abril de 2009 Francesc Solans

Recomanacions per a la confecció de taules i relacions tabulades en els textos a publicar en el BOPB

Recursos humans i responsabilitat social corporativa

GCompris (conjunt de jocs educatius)

L experiència del projecte e-factura a la UPC

El llenguatge com a vehicle cultural La traducció

GUIA RÀPIDA DE TRADUCCIÓ AMB EL GOOGLE TRANSLATE

Projecte d anàlisi i millora de processos

Problemes de programació lineal de la sele.

3. DIAPOSITIVA D ORGANIGRAMA I DIAGRAMA

Higiene del medi hospitalari i neteja del material

INS GABRIEL FERRATER. Departament de Matemàtiques. Tasques d estiu per a recuperar la matèria de matemàtiques de 2n curs d ESO.

EL TREBALL DE LA COMPETÈNCIA COPMUNICATIVA A L INSTITUT DE BADIA DEL VALLÈS. Organització i grup impulsor. Charo Tomàs Núria Gres

S + V + O V + S + O S + O + V

Taller de creació de videojocs amb Scratch

ESTRUCTURA SINTÀCTICA DE DIFERENTS LLENGÜES. La nena menja caramels. Menja nena caramels. Nena caramels menja.

Informació complementària. Documents per a l organització i la gestió dels centres

Fraccions. Guió de treball de l alumne/a...del grup...

Novetats de la Grossa

Definició L organigrama és la representació gràfica dels llocs de treball de l empresa i reflexa com es relacionen entre si.

Estat dels serveis i mesures per a la millora de les telecomunicacions als polígons del Vallès Occidental Annex III: Fitxes municipals dels polígons

1. QUÈ ÉS EL BADMINTON?

Tasca 2.- LA REPRESENTACIÓ DE LA TERRA. ELS PLANISFERIS

Idioma i traducció C2 (portuguès) Codi: Crèdits: 9. Titulació Tipus Curs Semestre Traducció i Interpretació OB 2 2

Gestió logística i comercial

Generalitat de Catalunya Departament d Ensenyament Institut Obert de Catalunya. Avaluació contínua. Cognoms. Centre: Trimestre: Tardor 11

Índex de la Guia del professor

"la langue est un système de signes exprimant des idées" Saussure (1916) Introduction 3

CAMPS DE FORÇA CONSERVATIUS

LA FORÇA 1. CONCEPTE I TIPUS DE FORÇA

Dibuix Tècnic. Sistemes de representació

BLOC 1 PROCESSOS I CONTINGUTS: Numeració i càlcul PRIMÀRIA 3r cicle

Clic de sons i nombres

Contingut Immigració i adquisició de segones llengües. Factors psicolingüístics. Factors en l ASL. Les llengües dels aprenents

UML. Jordi Cazorla Riera Eduard Rando Segura. Enginyeria del Software II 1 / 4 7

L experiència dels flequers de Terrassa 12 de desembre de 2007

ÍNDEX LA MATÈRIA... 2 MASSA I VOLUM DE SÒLIDS I LÍQUIDS... 4 LES SUBSTÀNCIES I LA MATÈRIA... 5 ELS ESTATS DE LES SUBSTÀNCIES... 6

Em plau presentar-vos els resultats obtinguts per l'alumnat del vostre centre en la prova d'avaluació de sisè d'educació primària.

Fils Conductors : Transversalitat docent i pensament analític a treball Social 29 d Octubre de 2014

II Jornada Pla de salut de Barcelona Ciutat

CALC 1... Introducció als fulls de càlcul

MATEMÀTIQUES APLICADES A LES CIÈNCIES SOCIALS. 1r BATXILLERAT

IX.- FLEXIÓ ATEMÀTICA. TEMES EN SIGMA, VOCAL -I- -U- DIFTONG RECAPITULACIÓ FLEXIÓ ATEMÀTICA

GECO Gestor de Continguts Corporatiu de la Generalitat de Catalunya.

Nivell C4: Tractament de la informació escrita Mòdul 2: Opcions de format i impressió de documents

Imatge digital 4t d ESO

Raval Territori Socialment Responsable (TSR)

A.E.A: annex 2 VALORS DE MERCAT

2. FUNCIONS MATEMÀTIQUES, TRIGO- NOMÈTRIQUES I ESTADÍSTIQUES

1. Objecte del contracte

Hi ha cossos que tenen la propietat d atraure n altres. Els anomenem imants.

SEGURETAT DE PACIENTS CONTROL I SEGURETAT EN LES INTERVENCIONS

Enginyeria del Software III XML NAMESPACES (ESPAIS DE NOMS) Roberto García Despatx EPS 3.15

Balanç econòmic de la recollida de residus porta a porta i en àrea de vorera per als ens locals

La identificació de competències a MC MUTUAL

UNIÓ EUROPEA Fons Social Europeu PROGRAMA FORMATIU DE FORMACIÓ COMPLEMENTÀRIA. Sensibilització en la igualtat d oportunitats

LEONARDO DA VINCI PROJECTE EUROACCIÓ Treball Campus. Març 2011 Dolors Sales. Coordinadora

OPERACIÓ POESIA. Centre: INS Bernat el Ferrer. Població: Molins de Rei

El Banc de Llavors de la Garrotxa

Elvira V. Santamaria Hospital Universitari Vall d Conxi Caro Fundació per a la Recerca

Pla d enquestes Hospital Odontològic Universitat de Barcelona Hospital Podològic Universitat de Barcelona

El llenguatge HTML (Descripció i etiquetes) L etiqueta <table> (Creació de taules) Exemple complet de codi HTML... 5

Grup de treball de competències bàsiques EXPRESSIÓESCRITA SE Montcada Vallès Occidental VI INS La Ribera

Jornada de portes obertes del Batxillerat. Institut Celestí Bellera

FITXA DE PROCÉS NUM.REVISIÓ DESCRIPCIÓ DATA APROVACIÓ. 00 Versió original 10/03/2015

Morfologia de l'espanyol

Seguretat en els mecanismes de transmissió i en el fet de compartir informació assistencial

UNITAT COMBINAR CORRESPONDÈNCIA

LES FINANCES A L ABAST DE TOTHOM

Funcionament del quadre de classificació de la documentació administrativa

Operacions administratives de recursos humans

Oferta formativa curs

Transcripción:

La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció Desenvolupament històric 1954 Estats Units: primer prototitpus d un sistema real de traducció automàtica 1976 Canadà: METEO (informes metereològics anglès-francès) 1976 Comissió Europea: SYSTRAN (francèsanglès i més parelles de llengües posteriorment) Desenvolupament històric 1970-1980 Europa: EUROTRA 1980-1990: Consolidació dels sistemes de traducció automàtica basats en la transferència 1990-2000: Comercialització de programes basats en traducció directa 2000 -: Traducció en xarxa

La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció Límits de la traducció automàtica La informació a es complementa amb inferències basades en el coneixement del món Els pingüins poden nedar però no volen Els nens poden nedar però no volen Dificultat de programar l extensió i la complexitat del coneixement del món La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement

Tipus de sistemes de traducció automàtica Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement Sistemes de traducció directa Utilitzen lèxics monolingües i bilingües molt grans (traducció de paraules) Coneixement morfosintàctic molt limitat Sistemes comercialitzats Rapidesa Qualitat de traducció limitada Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement

Sistemes basats en transferència Utilitzen coneixement formalitzat Procés de traducció en tres fases Fase d anàlisi Fase de transferència Fase de generació Sistemes basats en transferència Fase d anàlisi Anàlisi morfològica de cada paraula Anàlisi sintàctica de la frase Arbre que conté Estructura de constituents Informació morfològica (categoria, nombre, gènere ) Informació sintàctica (funció del constituent) Informació semàntica (tipus de nom, verb ) Sistemes basats en transferència Fase de transferència Selecció de la traducció correcta per a cada paraula Transformacions estructurals que s han d aplicar sobre la frase en la llengua d arribada Determinades per l entrada en el lèxic bilingüe Arbre de transferència Paraules en la llengua d arribada Canvis estructurals Sistemes basats en transferència Fase de generació Operacions pròpies de la llengua d arribada Ordre de constituents Inserció o eliminació de material lèxic Generació de formes flexives en funció de la informació present en l arbre Combinació i contracció de certs elements lèxics

Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement Sistemes d interllengua El resultat de l anàlisi de la llengua d origen és una xarxa semàntica (interllengua - interlingua) Entitats representades com un conjunt de trets semàntics (conceptes) Relacions entre entitats En la fase de generació s expressen amb el lèxic i l estructura sintactica de la llengua d arribada els conceptes representats en la interllengua Sistemes d interllengua Sistemes d interllengua Problemes de la interllengua Descripció en forma de trets semàntics de totes les entitats utilitzades en la llengua (noms) juntament amb les seves propietats (adjectius) Representació de totes les possibles relacions (verbs) entre entitats Sistemes possibles en dominis restringits

Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement Sistemes basats en tècniques estadístiques Es parteix de corpus textuals bilingües paral lelitzats per a l entrenament del sistema de traducció Amb tècniques estadístiques es calcula la probabilitat de que un grup de paraules de la llengua d origen tingui com a traducció un grup de paraules de la llengua de destinació Sistemes basats en tècniques estadístiques Bons resultats si es disposa de Quantitat suficient de textos bilingües en paral lel Bon algorisme estadístic per al càlcul de models probabilístics Millors resultats en dominis restringits que amb textos generals Sistemes basats en tècniques estadístiques Problemes amb fenòmens s que suposen dependències entre paraules que es troben molt separades Més problemes com major és la distància tipològica entre les llengües Poc control sobre els errors del sistema i la seva correcció

Tipus de sistemes de traducció automàtica Sistemes basats en el coneixement Memòries de traducció Corpus de frases en la llengua d origen i la seva traducció correcta en la llengua d arribada Cerca de frases en el text que es tradueix iguals o similars a les de la memòria de traducció Útils per a textos repetitius L extensió de la memòria millora el sistema La traducció automàtica Desenvolupament històric Limitacions Tipus de sistemes Fases del procés de traducció Fases del procés de traducció automàtica Preprocessament del text Identificació i segmentació del text en frases Anàlisi i desambiguació morfològica Anàlisi sintàctica Transferència lèxica Transferència estructural Generació de la frase traduïda Recuperació del format del text original Correcció del text traduït o postedició

Preprocessament del text Adquisició i preparació del text Text en suport magnètic Formats habituals: ASCII, RTF (Rich Text Format), HTML (Hyper Text Markup Language) Segmentació del text en frases Divisió del text en frases (unitats de traducció) Basada en la puntuació però Els punts poden representar abreviatures, xifres, números de secció d un llibre, etc. Anàlisi morfològica Entrada del lèxic monolingüe Proporciona totes les segmentacions i interpretacions possibles de cada paraula Informació extreta del lèxic monolingüe de la llengua d origen Lema Categoria gramatical Informació morfològica

Entrada del lèxic monolingüe Anàlisi morfològica Anàlisi sintàctica Anàlisi sintàctica Basada en les regles de la gramàtica d anàlisi de la llengua d origen Desfà les ambigüitats de l anàlisi morfològica o de l anàlisi sintàctica La porta cap a casa Crea un arbre amb informació lèxica i sintàctica

Transferència lèxica Utilitza el lèxic bilingüe en la llengua d origen i la d arribada per seleccionar la traducció de cada paraula El lèxic bilingüe conté informació sobre les condicions de selecció de les paraules Combina la informació del lèxic bilingüe amb la informació de l arbre d anàlisi Transferència estructural Utilitza informació del lèxic bilingüe: accions associades a la selecció de l entrada Canvis de gènere o nombre Canvis estructurals Generació de la frase traduïda Generació de la frase final partint de l arbre d anàlisi amb les paraules en la llengua d arribada i amb les modificacions estructurals activades pel lèxic bilingüe Ordre de constituents Inserció o elisió de material lèxic Generació de formes flexives Recuperació del format del text original El programa crea un fitxer amb la mateixa disposició que el text original Paràgrafs Taules Columnes Peus de plana.. Es crea un document amb el format del text d entrada

Correcció del text traduït o postedició Revisió per un traductor humà de la qualitat final del text traduït automàticament Idealment: Temps de traducció automàtica + temps de postedició < Temps de traducció manual La traducció automàtica ALONSO, J. A. (2001) "La traducció automàtica", in MARTÍ, M. A. (Coord.) Les tecnologies del llenguatge. Barcelona: Edicions de la Universitat Oberta de Catalunya (Manuals, 53). pp. 86-119; trad. cast.: "La traducción automática", in MARTÍ, M. A. (Coord.) Tecnologías del lenguaje. Barcelona: Editorial UOC (Manuales, Humanidades), 2003. pp. 94-129. ALONSO, J. A. (2007) "Els sistemes de traducció automàtica", Llengua i ús: Revista Tècnica de Política Lingüística 38: 23-32.