Sistema de extracción automática de información semántica de los libros de texto estructurados TESIS

Documentos relacionados
María Moliner. Gramática básica del español GREDOS A/ SUB Hamburg

INTRODUCCIÓN La lengua como sistema El signo lingüístico Las articulaciones La lengua como pluralidad de sistemas 24

MARía LUZ GUTIÉRREZ ARAUS PROBLEMAS FUNDAMENTALES DE LA GRAMÁTICA DEL ESPAÑOL COMO 2/L

Hay varias clases de pronombres: personales, posesivos, numerales, indefinidos, interrogativos, exclamativos y relativos.

EJERCICIOS DE GRAMÁTICA Y DE EXPRESIÓN (Con nociones teóricas)

Comunicación Oral y Escrita. Sesión 4

Pontificia Universidad Católica del Ecuador

CONCEPTOS; PROCEDIMIENTOS Y CRITERIOS DE EVALUACIÓN

Inteligencia artificial

CLASES DE PALABRAS CATEGORÍAS GRAMATICALES

PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR FACULTAD DE COMUNICACIÓN, LINGÜÍSTICA Y LITERATURA ESCUELA DE LINGÜÍSTICA

1.- Enunciado / oración 2.- Estructura de la oración 3.- Las funciones sintácticas 4.- Clasificación de la oración simple

Prof. Mercedes Cartón Lengua castellana y Literatura 1º de Bachillerato Colegio ORVALLE

INSTITUCIÒN EDUCATIVA COLEGIO AGROPECUARIO TIERRA ADENTRO

ANÁLISIS ORACIONAL LA ORACIÓN COMPLEJA PROF. BEATRIZ I. DÍAZ 1

Unidad 5 Morfosintaxis I:

LA GRAMÁTICA NO ES DRAMÁTICA

ENUNCIADO Y ORACIÓN RELACIONES ENTRE ORACIONES

EL VERBO: LA CONJUGACIÓN

Colegio Antonio de Nebrija

A/ LEONARDO GÓMEZ TORREGO HABLAR Y ESCRIBIR CORRECTAMENTE. Gramática normativa del español actual. II Morfología y sintaxis AARCO/LIBROS, S.

INTRODUCCIÓN. Depósito Legal: NA3220/2010 ISSN: REVISTA ARISTA DIGITAL

7 Esp. U 2. L 18 Elaborar un plan textual, organizando los elementos para producir oralmente un texto narrativo. 7 Esp. U 2. L 19

AYUDAS PARA CONJUGAR VERBOS. Antonio García Megía Doctor en Filología Hispánica

FELLESUNDERVISNING. Trabaja detenidamente con el capítulo 1. Estudia detenidamente las siguientes páginas antes de la primera clase de teoría:

Los amigos de Pedro comieron hamburguesas en el restaurante nuevo. SN/Sujeto verbo

ANÁLISIS SINTÁCTICO TEORÍA Y PRÁCTICA BLOQUE 1: LA ORACIÓN SIMPLE CATEGORÍAS Y FUNCIONES. Definición. Dos conceptos distintos: categoría y función

TEMA 3 EL ARTÍCULO. DETERMINATIVOS Y PRONOMBRES

Escuela N Profesor Francisco Humberto Tolosa. San Martín 562 Rivadavia Mendoza. Tel: (0263) Mail:

EL VERBO CRITERIO MORFOLÓGICO CONJUGAR UN VERBO SIGNIFICA DECIRLO EN LOS DISTINTOS MODOS, TIEMPOS, PERSONAS Y NÚMEROS.

Contenidos 1º E.S.O. Castellano

Lengua Castellana y Literatura Jaime Arias Prieto

Las relaciones sintácticas

T 2. LCL 3. Resúmenes de Lengua castellana. Me lo explicas? VICENS VIVES. 1. Las propiedades de los textos (I) 2. El grupo nominal (I) La coherencia

Reconocer y analizar oraciones coordinadas y yuxtapuestas

Como puedes ver en este esquema, la oración simple se compone de dos elementos

Definición, estructura y funciones del sintagma adjetivo

Lengua y Literatura 3º ESO Quincena 4

FICHA I.- COMUNICACIÓN Y LENGUAJE. Elementos (Funciones)

Español para traductores Programación WS 2011/12

ÍNDICE. Capítulo 3. EL SINTAGMA Introducción... 45

INTRODUCCIÓN AL ANÁLISIS SINTÁCTICO DEL ESPAÑOL

Academia, Librería, Informática Diego. el, la, los, las y el género neutro: lo. Determinantes Demostrativos LOS DETERMINANTES CLASES DE DETERMINANTES

Trabaja detenidamente con: Clasificación de las oraciones (páginas 12-14) Proposiciones (páginas 31-35) Oraciones subordinadas (páginas )

Lengua Española I. Tema 7. Los elementos suprasegmentales: el acento y la entonación en español

1.- EL SINTAGMA NOMINAL : ESTRUCTURA

CONTENIDOS DE LENGUA CASTELLANA Y LITERATURA 1º ESO (CONVOCATORIA EXTRAORDINARIA SEPTIEMBRE 2013)

Qué es la morfología?

Escandell Vidal, V. (2004). Fundamentos de Lingüística Composicional. Barcelona: Ariel.

CURSOS DE LENGUA ESPAÑOLA NIVEL INICIAL (A1) DESCRIPCIÓN

Se realizarán 10 preguntas, valoradas con un punto cada una.

ANEXO III 2.º DE EDUCACIÓN SECUNDARIA

PRUEBAS SOLEMNES II SEMESTRE DE 2011 APRENDIZAJES ESPERADOS Y CONTENIDOS A EVALUAR APRENDIZAJES ESPERADOS

EVALUACIÓN DE CONTENIDOS CURRICULARES EDUCACIÓN PRIMARIA CONTENIDOS MÍNIMOS DE LENGUA CASTELLANA Y LITERATURA. Indicadores

Gramática de Lengua Inglesa

Pontificia Universidad Católica del Ecuador

Distinguimos dos grandes grupos, las palabras variables y las invariables:

LENGUAJE, LENGUA Y HABLA. EL SIGNO LINGÜÍSTICO.

b) El número es el segundo morfema flexivo del sustantivo. Establece la oposición singular/plural. Junto con el género, marca la concordancia:

22. La voz: (a) activa o (b1) pasiva perifrástica (con ser) o (b2) pasiva con SE

Jugamos con los cuentos? C.R.A. EL ENCINAR (LA LOSA) ÍNDICE

LOS PRONOMBRES. Carmen Ruiz Vargas Gerard Morera Pujol Escola Casals-Gràcia

BLOQUE V: LAS CLASES DE PALABRAS 1

LENGUA CASTELLANA Y LITERATURA 2º DE BACHILLERATO VMA. Estructura profunda (EP) Estructura superficial (ES).

La ciencia del lenguaje Evoluciónenlasideassobreel lenguaje. 2. Gramáticay lingüística.

UNIVERSIDAD CARLOS III DE MADRID PROGRAMA DE LA ASIGNATURA: LENGUA CASTELLANA

CONTENIDOS Y CRITERIOS DE EVALUACIÓN LENGUA 1º PRIMARIA. UNIDAD: 1. Conozco mi cuerpo.

CONTENIDOS MÍNIMOS DE PRÁCTICAS DEL LENGUAJE 2º grado

cuadernos DIGITALES ESQUEMAS DE SINTAXIS - 3º e.s.o. -

PLANES DE RECUPERACIÓN DE 1º ESO PARA SEPTIEMBRE - curso 2013/14 LENGUA CASTELLANA Y LITERATURA

Semana 6 Comunicación conceptos y reglas

Guía de estudio extraordinario Expresión Oral y Escrita Define los siguientes conceptos: Lenguaje: Lengua: Habla: Lenguaje oral: Lenguaje escrito:

Programa de gramática

Curso de Gramática. Unidad I El verbo. Conceptos básicos El verbo. Conceptos básicos

Unidad 2 Ser y Estar 31 Adjetivos con Ser y Estar 37 Las preposiciones En y Entre 40 Los demostrativos 41 Sí... pero 42 El español en el mundo 44

ORACIONES SUSTANTIVAS

ORACIONES SEGÚN LA ESTRUCTURA (SUJETO Y PREDICADO)

F. JAVIER HERRERO RUIZ DE LOIZAGA SINTAXIS HISTÓRICA DE LA ORACIÓN COMPUESTA EN ESPAÑOL CREDOS BIBLIOTECA ROMÁNICA HISPÁNICA

Formas no personales de los verbos

Clases de diálogos. Unidad 10. Jaime Arias Prieto

Repaso y síntesis de cuestiones gramaticales básicas.

Tres pruebas que pueden ayudar con la sintaxis

PRIMER TRIMESTRE CONTENIDOS Y CRITERIOS DE EVALUACIÓN LENGUA 4º ED. PRIMARIA BLOQUE DE ORTOGRAFÍA. Contenidos

2.1 Función, forma y significación del adverbio

En toda argumentación podemos distinguir 3 elementos:

Determinantes Demostrativos. Ejercicios

ESTANDARES DE LA EDUCACION SECUNDARIA. EspaÑol

EL TEXTO Y LA ORACIÓN: TEXTOS, PÁRRAFOS, ORACIÓN, PALABRA

Identificación y uso de las formas deícticas

INGLÉS BÁSICO. Descripción de los Módulos Formativos

INGLÉS NIVEL MEDIO. Descripción de los Módulos Formativos

Componentes de la oración, predicado nominal y verbal

Tema 9. Los pronombres.

2. Gra m á t i c a. Propósito: Sabía que: La gramática ayuda al conocimiento más preciso de nuestra lengua; por ello, su estudio es importante.

LATÍN CONCEPTOS BÁSICOS. Se flexionan el sustantivo y el adjetivo (flexión nominal), el pronombre (flexión pronominal) y el verbo (flexión verbal).

Gramática Clasificación der las oraciones según la naturaleza del verbo

UNIVERSIDAD NACIONAL DE SANTIAGO DEL ESTERO FACULTAD DE CIENCIAS FORESTALES LECTURA DE TEXTOS CIENTIFICOS ESCRITOS EN INGLES.

TEXTOS CIENTÍFICO-TÉCNICOS

Sintagma Nominal PREPOSICIÓN + Sintagma Verbal. Sintagma Adjetival. Sintagma Adverbial PREPOSICIÓN + PREPOSICIÓN + PREPOSICIÓN +

Transcripción:

INSTITUTO POLITECNICO NACIONAL CENTRO DE INVESTIGACION EN COMPUTACION Laboratorio de Procesamiento de Lenguaje Natural Sistema de extracción automática de información semántica de los libros de texto estructurados TESIS QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS DE LA COMPUTACIÓN PRESENTA Ing. Juve Andrea Herrera de la Cruz Directores de Tesis Dr. Grigori Sidorov Dr. Sofía N. Galicia Haro

Resumen La información generalmente se encuentra contenida en unidades más pequeñas que las oraciones llamadas hechos desde el punto de vista semántico, posteriormente esta información se codifica, procesa y almacena. Sin embargo, la identificación de los hechos en un texto no es una tarea trivial debido a la complejidad implícita del lenguaje natural, además de que el lenguaje natural abarca diversos idiomas con diferencias estructurales entre sí. Actualmente existen varios sistemas relacionados con la extracción de información semántica, sin embargo, algunos de las limitantes que tienen son que: muchos de ellos están hechos para idiomas diferentes al español y que usan una representación formal, como lógica de primer orden, lo que los restringe a ser usados para aplicaciones que usen también lógica de primer orden. En el presente trabajo se plantea una metodología para la extracción de hechos de una frase utilizando una representación sencilla, enfocada a libros de texto estructurados en español, haciendo que esta metodología resulte útil para sistemas que requieren sólo hacer consultas o bien sistemas que requieren una representación propia. Los libros de texto estructurados tienen la peculiaridad de estar enfocados a un área de estudio, además, están divididos en capítulos, y éstos a su vez en párrafos que contienen gran cantidad de hechos por su carácter conceptual. i

Abstract The information is usually contained in smaller units than sentences called facts, since the semantic point of view, then this information is encoded, processed and stored. However, the identification of the facts in a text is not a trivial task due to the inherent complexity of natural language, as well as natural language covering various languages with structural differences between them. Currently there are several systems related to the extraction of semantic information, however, some of the limitations they have are that: many of them are made to languages other than Spanish and use a formal representation, as first order logic, what is restricted to be used for applications that also use first order logic. In the present thesis proposes a methodology for the extraction of feacts from a sentence using a simple representation, focusing on structured text books in Spanish, making this methodology useful for systems that require only to make queries or require its own representation. Structured text books are usually focused at a certain study area, and are divided into chapters and them into paragraphs that contain lots of facts for its conceptual nature. iii

Agradecimientos Agradezco todo el apoyo a mis asesores y familia. Agradezco a los sinodales por sus comentarios. v

Índice general Resumen Abstract I III 1. Introducción 1 1.1. Planteamiento del problema................... 2 1.2. Justificación............................ 2 1.3. Objetivos............................. 3 1.3.1. Objetivo general..................... 3 1.3.2. Objetivos particulares.................. 3 1.4. Alcances.............................. 3 2. Marco teórico 5 2.1. Introducción............................ 5 2.2. Análisis gramatical del español.................. 6 2.2.1. Análisis morfológico del español............. 7 2.2.2. Análisis sintáctico del español.............. 13 2.3. Análisis sintáctico en Lingüistica Computacional........ 28 2.3.1. Sintaxis.......................... 31 2.3.2. Formalismos gramaticales................ 31 2.3.3. Características del español................ 33 2.4. Representación de conocimiento y razonamiento........ 34 2.4.1. Conocimiento, representación y razonamiento..... 34 2.4.2. Sistemas basados en conocimiento............ 35 2.4.3. Definición de hecho.................... 37 3. Antecedentes 39 3.1. Introducción............................ 39 vii

ÍNDICE GENERAL 3.1.1. Transformaciones a formas lógicas basados en dependencias........................... 40 3.1.2. Un esquema de evaluación semiautomática....... 41 4. Metodología del sistema 45 4.1. Selección y preprocesamiento del texto............. 45 4.2. Análisis sintáctico......................... 45 4.3. Extracción de hechos....................... 48 4.3.1. Características de un hecho............... 49 4.3.2. Heurísticas......................... 50 4.4. Base de datos........................... 74 5. Interfaz del sistema 79 6. Descripción de resultados 83 6.1. Resultados obtenidos por un humano.............. 84 6.2. Resultados del sistema...................... 84 6.3. Evaluación del sistema...................... 84 6.3.1. Precisión del sistema................... 84 6.3.2. Recall........................... 84 7. Aportaciones 89 7.1. Aportaciones científicas...................... 89 7.2. Aportaciones técnicas....................... 89 8. Conclusiones 91 A. Corpus de prueba 93 A.1. Composición del corpus de prueba................ 93 A.2. Hechos existentes en el texto de prueba............. 96 A.3. Etiquetas sintácticas y morfológicas para español (Connexor). 113 A.3.1. Relaciones sintácticas del español............ 113 A.3.2. Etiquetas sintácticas para el español.......... 114 A.3.3. Etiquetas morfológicas para español........... 115 Bibliografía 121 viii

Índice de figuras 2.1. Árbol de dependencias...................... 32 2.2. Árbol de constituyentes...................... 33 4.1. Metodología del sistema..................... 46 4.2. Ejemplo de un árbol sintáctico.................. 47 4.3. Ejemplo de análisis sintáctico.................. 48 4.4. Ejemplo de un árbol sintáctico mal formado.......... 49 4.5. Ejemplo de la composición de un hecho............. 50 4.6. Estructura de la tabla de predicados............... 50 4.7. Estructura de la tabla de entidades............... 51 4.8. Tabla de datos y sus relaciones................. 51 4.9. Almacenamiento de un hecho en la base de datos....... 52 4.10. Ejemplo de una árbol sintáctico................. 54 4.11. Ejemplo de árbol sintáctico para la regla 1........... 57 4.12. Ejemplo de un hecho extraído con la regla 1.......... 58 4.13. Ejemplo de un hecho extraído con la regla 2.......... 58 4.14. Ejemplo de árbol sintáctico para la heurística 0........ 60 4.15. Ejemplo de hechos extraídos mediante la heurística 0...... 61 4.16. Ejemplo de árbol sintáctico para la heurística 1a........ 63 4.17. Ejemplo de un hecho extraído con la heurística 1a....... 64 4.18. Ejemplo de árbol sintáctico para la heurística 1b........ 65 4.19. Ejemplo de un hecho extraído con la heurística 1b....... 66 4.20. Ejemplo de árbol sintáctico para la heurística 2........ 67 4.21. Ejemplo de un hecho extraído con la heurística 2........ 68 4.22. Ejemplo de árbol sintáctico para la heurística 3........ 69 4.23. Ejemplo de un hecho extraído con la heurística 3........ 70 4.24. Ejemplo de árbol sintáctico para la heurística 4........ 72 4.25. Ejemplo de un hecho extraído con la heurística 4........ 73 ix

ÍNDICE DE FIGURAS 4.26. Ejemplo de árbol sintáctico para la heurística 5........ 75 4.27. Ejemplo de un hecho extraído con la heuristica 5........ 76 4.28. Esquema de la base de datos del sistema............ 77 5.1. Interfaz del sistema: apertura de un archivo.......... 80 5.2. Interfaz del sistema: selección de una oración......... 81 6.1. Experimento corriendo...................... 86 6.2. Predicados obtenidos por el sistema............... 87 6.3. Tabla de entidades generada por el sistema........... 87 6.4. Tabla de relaciones generada por el sistema........... 88 x

Índice de tablas 2.1. Funciones de los relacionantes en el análisis sintáctico..... 7 2.2. Clasificación de las funciones sintácticas............ 14 2.3. Tipos de enunciados en el español................ 18 2.4. Funciones de los relacionantes en el análisis sintáctico..... 27 3.1. Características de las metodología de Stephen y Hovy..... 43 6.1. Tabla de resultados de la evaluación............... 85 A.1. Predicados obtenidos por un humano.............. 97 A.2. Entidades obtenidas por un humano............... 99 A.3. Relaciones de los hechos existentes obtenidas por el humano. 102 A.4. Predicados obtenidos por el sistema............... 106 A.5. Entidades obtenidas por el sistema............... 108 A.6. Relaciones obtenidas por el sistema............... 110 A.7. Etiquetas sintácticas para el español.............. 113 A.8. Etiquetas sintácticas superficiales para español......... 114 A.9. Etiquetas morfológicas para español............... 115 xi

Capítulo 1 Introducción El desarrollo tecnológico de las computadoras y los sistemas de cómputo, así como, el surgimiento del Internet y de la Web han provocado que la cantidad de información almacenada en los sistemas de cómputo creciera de manera rápida, en consecuencia se ha presentado la dificultad para administrar y procesar dichos volúmenes de información. Dentro del Procesamiento de Lenguaje Natural (PLN ) se han desarrollado técnicas que procesan de manera automática la información, es decir, obtener la información que se desea en el momento que se solicita. Existen varias áreas de investigación dentro del PLN que se enfocan a desarrollar el procesamiento de la información como: creación automática de resúmenes, indexado automático de textos, creación de diccionarios especializados, aprendizaje por lectura, evaluación automática de diccionarios, creación de ontologías de dominio específico, entre otras. La mayoría de las metodologías mencionadas requieren identificar la información de la cual se está hablando en el texto a procesar. La información generalmente se encuentra contenida en unidades más pequeñas que las oraciones llamadas hechos desde el punto de vista semántico, posteriormente esta información se codifica, procesa y almacena. Sin embargo, la identificación de los hechos en un texto no es una tarea trivial debido a la complejidad implícita del lenguaje natural, además de que el lenguaje natural abarca diversos idiomas con diferencias estructurales entre sí. 1

1.1. Planteamiento del problema CAPÍTULO 1. INTRODUCCIÓN Actualmente existen varios sistemas relacionados con la extracción de información semántica, sin embargo muchos de ellos están hechos para idiomas diferentes al español. Los sistemas que se han desarrollado para la extracción de hechos, usan una representación formal, como lógica de primer orden. El problema que existe con estos sistemas es que sólo pueden ser usados para aplicaciones que usen también lógica de primer orden. Sin embargo, existen aplicaciones que requieren una representación más sencilla. Con una representación más sencilla de los hechos extraídos es posible crear una base de datos que contenga los hechos de un texto para que su uso se extienda a más sistemas. 1.2. Justificación La extracción de hechos de una frase con una representación sencilla, resulta útil para sistemas que requieren sólo hacer consultas o bien sistemas que requieren una representación propia, podrían usar los hechos extraídos de una frase para hacer la transformación a su representación de una forma poco costosa en tiempo y procesamiento. Es por ello que el presente trabajo plantea una metodología para extraer hechos, enfocada a libros de texto estructurados en español. Los libros de texto estructurados tienen la peculiaridad de estar enfocados a un área de estudio, además están divididos en capítulos, y éstos a su vez en párrafos que contienen gran cantidad de hechos por su carácter conceptual. Se requiere de una metodología que permita obtener una base de implicaciones para el español de manera automática la cual pueda utilizarse en el desarrollo de sistemas como: creación de diccionarios especializados, aprendizaje por lectura, evaluación de diccionarios, creación de ontologías de dominio específico, entre otros. 2

CAPÍTULO 1. INTRODUCCIÓN 1.3. Objetivos Los objetivos de este trabajo son los que se plantean en seguida. 1.3.1. Objetivo general El objetivo general es desarrollar una metodología para la extracción de hechos de un libro de texto estructurado en español que se basa en analizar los resultados de un analizador sintáctico mediante heurísticas e implementarla en un sistema que almacene los hechos en una base de datos 1.3.2. Objetivos particulares Los objetivos específicos son: Preparar el corpus de prueba. Desarrollar una metodología que permita obtener hechos de un texto en español. Aplicar un analizador sintáctico al corpus de prueba. Desarrollar heurísticas que se aplicarán a los arboles sintácticos obtenidos. Desarrollar la interfáz del sistema. Implementar la metodología propuesta. Crear una base de datos y almacenar en ella los hechos obtenidos. Evaluar el desempeño del sistema. 1.4. Alcances Con este trabajo de tesis se pretende obtener un sistema que sea capaz de generar una base de hechos de un texto estructurado de manera automática con cierto nivel de certidumbre, restringido a textos técnicos en el idioma español. 3

CAPÍTULO 1. INTRODUCCIÓN Los beneficios derivados de esta propuesta de tesis van dirigidos a investigadores del área de PLN y a áreas afines que se encuentren interesados en el desarrollo de metodologías para la extracción automática de información de textos escritos en español. La metodología desarrollada puede ser utilizada por ejemplo en alguna de las siguientes áreas: indexado automático de textos, creación automática de diccionarios especializados, sistemas de aprendizaje por lectura, entre otros. 4

Capítulo 2 Marco teórico 2.1. Introducción El lenguaje puede analizarse desde tres puntos de vista, el primero es para expresar pensamientos humanos, la segunda como una forma de generación de texto y la tercera como un elemento para la comunicación humana [Bolshakov & Gelbukh 2004]. Sin embargo para dar una definición correcta de lenguaje, es indispensable incluir otros elementos como texto, significado, generación y entendimiento. El significado se refiere a los pensamientos humanos. El texto es una forma de representar los pensamientos humanos. Por lo tanto el lenguaje es un transformador bidireccional de Texto-Significado. La comunicación humana requiere que las personas que están transmitiendo información tengan este transformador en su mente [Bolshakov & Gelbukh 2004]. El lenguaje humano tiene varias características que lo diferencian de cualquier conjunto de signos o señales. Algunas características son que el lenguaje es arbitrario, porque no hay una relación directa entre el objeto representado y el elemento representante; el lenguaje tiene una estructura lineal, porque al hablar o representar por escrito una expresión, se produce en secuencias continuas, que impiden que dos unidades puedan presentarse al mismo tiempo y en el mismo lugar de la cadena hablada; el lenguaje tiene una doble articulación. La primera articulación del lenguaje se refiere a la construcción de enunciados a partir de unidades significativas mínimas denominadas mor- 5

CAPÍTULO 2. MARCO TEÓRICO femas. La segunda articulación del lenguaje se refiere a la construcción de morfemas a partir de unidades no significativas, pero distintas entre sí, que se denominan fonemas [Ortuño 1980]. Al enfoque moderno del lenguaje se le denomina lingüística estructural y comienza a principios de siglo XX con los estudios de Saussure y sus seguidores. Este enfoque estructural, ha dado lugar a que aparezcan tres niveles en el estudio del lenguaje: Nivel fonológico: se refiere al estudio de los elementos que pertenecen a la segunda articulación de la lengua, es decir a los fonemas, acentos, y tonos de los signos lingüísticos. Nivel morfosintáctico: se refiere al análisis de la estructura y funciones de los elementos que componen al mensaje. En este nivel se diferencian dos niveles, los cuales conforman el análisis gramatical de una lengua: Nivel morfológico: estudia las palabras, reconociendo los elementos que las componen (morfemas) y las relaciones que existen entre éstos. Nivel sintáctico: estudia las clases de enunciados de acuerdo a sus estructuras, los elementos de los que están compuestos (sintagmas) y las funciones que éstos desempeñan. Nivel semántico: analiza el lenguaje para reconocer los tipos de enunciados y palabras que componen los mensajes de acuerdo a su significado. En el presente trabajo es muy importante analizar las características sintácticas y morfológicas para definir las heurísticas que se utilizarán en la extracción de hechos. Por tal motivo, en las siguientes secciones del marco teórico se explican estos temas. 2.2. Análisis gramatical del español La gramática es una rama de la lingüística cuyo objetivo es reconocer las formas (morfología) y funciones (sintaxis) de los signos lingüísticos [Beristáin 1984]. 6

CAPÍTULO 2. MARCO TEÓRICO 2.2.1. Análisis morfológico del español La palabra se define como una unidad semántica o significativa. En ella es posible reconocer una estructura morfológica, ya que la mayoría de las palabras en castellano están formadas por lo menos de dos morfemas (unidad de estudio de la morfología) [Ortuño 1980].Entre las palabras se distinguen diferentes funciones que se muestran en la tabla 2.1. Tabla 2.1: Funciones de los relacionantes en el análisis sintáctico Función de las palabras Gramatical o morfosintáctica Determinativa o indeterminativa De significado ocasional Palabras cargadas de significado Ejemplos de grupos de palabras Enlaces(preposición y conjunción) Artículos Pronombres y adjetivos pronominales Todas las demás Clases de palabras En el análisis morfológico se distinguen varias clases de palabras, que se describen a continuación. Sustantivo Desde el punto de vista semántico, los sustantivos son aquellas palabras que sirven para nombrar objetos o seres materiales e inmateriales. A nivel sintáctico, los sustantivos desempeñan ciertas funciones como núcleo del sujeto, núcleo del objeto directo, núcleo de la aposición, núcleo del circunstancial, etc. Los sustantivos se pueden clasificar de acuerdo al grado de significación en [Beristáin 1984]: comunes, propios, concretos, abstractos, primitivos, individuales, derivados, etc. 7

CAPÍTULO 2. MARCO TEÓRICO Adjetivos Semánticamente, sirven para expresar las cualidades de los sustantivos cuando su significado es fijo. Cuando su significado es ocasional expresan otro tipo de relaciones, como posesivos, demostrativos, etc. Sintácticamente pueden funcionar como modificadores directos del núcleo de sintagmas y predicados [Ortuño 1980]. A nivel sintáctico se agrupan en: Determinativos o pronominales: posesivos, demostrativos, indefinidos, relativos, interrogativos y exclamativos. Calificativos o no pronominales Adverbios Calificativos: explicativos y especificativos. Numerales: cardinales, ordinales, partitivos, múltiplos y distributivos. Desde el punto de vista semántico, sirven para expresar determinaciones y cualidades de la acción del verbo, sea su significado fijo u ocasional. Se agrupan en adverbios de [Beristáin 1984]: tiempo, modo, lugar, cantidad, afirmación, negación, duda, etc. Sintácticamente puede realizar la función de circunstancial, núcleo del predicado, modificador de adjetivos, etc. Pronombres Puede actuar como sustantivo o adjetivos o adverbios. Desde el punto de vista morfológico pueden ser personales, posesivos, demostrativos, indefinidos, relativos, interrogativos o exclamativos [Beristáin 1984]. Verbos Semánticamente sirven para expresar la acción o proceso, aunque en algunas ocasiones expresan cualidad. Sintácticamente su única función es como núcleo del predicado. Los verbos se agrupan de la siguiente manera [Ortuño 1980]: 8

CAPÍTULO 2. MARCO TEÓRICO De acuerdo con la relación semántica que mantienen con los demás elementos de los enunciados, son transitivos, intransitivos, reflexivos, recíprocos, copulativos y auxiliares. Según el modo en que se presenta la acción en perfectivos e imperfectivos. Otra clase de verbos son los impersonales, unipersonales, defectivos e irregulares. Preposiciones Sintácticamente funcionan como relacionantes, pero tienen cierto sentido semántico que las agrupa en preposiciones de [Beristáin 1984]: lugar, tiempo, modo, precio, causa, posesión, pertenencia y movimiento. Las preposiciones se consideran palabras invariables. Conjunciones Sintácticamente funcionan como relacionantes y semánticamente pueden agruparse en copulativas, disjuntivas, adversativas y consecutivas. Artículo Semánticamente tiene escasa relevancia y sintácticamente funciona como adjetivo modificador directo del núcleo del sustantivo. Interjeción No se considera una clase de palabra porque contiene todas las características sintácticas y semánticas del enunciado. Vocativo Constituye una unidad completa porque sintáctica y semánticamente tiene todas las características del enunciado. 9

CAPÍTULO 2. MARCO TEÓRICO Palabras variables e invariables A pesar de la importancia de la palabra en el castellano, esta no es la unidad mínima de significación, ya que existen otras unidades que se denominan morfemas y son los signos lingüísticos mínimos. Los morfemas como signos lingüísticos mínimos se van uniendo para formar las palabras [Ortuño 1980]. Como una clasificación muy general a nivel morfológico, se distinguen dos clases de palabras: Palabras variables: son aquellas que según las funciones que ejercen en las estructuras sintácticas, aceptan cambios en algunos de los morfemas que las componen. Ejemplos de estas palabras son este, esto, estas, estos, etc. Palabras invariables: son aquellas que no cambian de morfemas o bien que están formadas por un solo morfema que no aceptan unión con otro morfema. Ejemplos de esta palabras son de, con, para, por, etc. Lexemas, gramema y derivativos Cada morfema como signo lingüístico, aporta un mayor o menor grado de significación a la palabra.existen tres clases de morfemas que se explican a continuación. Lexemas Son morfemas que tienen un significado específico y constituyen el núcleo central de la palabra. Explican seres y acciones y constituyen todo el léxico de una lengua. Se denominan morfemas lexicales. Gramemas Son elementos dependientes morfológicamente y se unen obligatoriamente a ciertos lexemas para precisar su significado. Se denominan morfemas gramaticales. El tipo de significado que aportan los gramemas puede ser de género, número, tiempo, persona y modo. 10

CAPÍTULO 2. MARCO TEÓRICO Los gramemas en las estructuras sintácticas de la lengua y en las palabras, desempeñan una función importante porque permiten establecer las marcas de concordancia morfológica entre las palabras y los sintagmas. Los gramemas se clasifican en [Ortuño 1980]: Gramemas nominales. Se unen a lexemas sustantivos y adjetivos para aportar significado de género, número y caso. Los gramemas de género aportan la significación de masculino o femenino. En muchos casos el gramema de género no aparece expreso y se denomina gramema vacio. El gramema de número aporta la significación de singular o plural. En muchos casos, el lexema no admite la unión con el gramema y se considera como gramema vacío. La mayoría de los sustantivos y adjetivos admiten la forma de singular y plural, sin embargo existen algunos que sólo admiten el plural, por ejemplo tijeras, modales, etc. El gramema de artículo se denomina así porque el artículo no es lexema ni derivativo, pero si modifica al sustantivo o adjetivo al que se une. El artículo se comporta morfológicamente como gramema, ya que aislado del lexema al que siempre va unido, no tiene ningún valor [Ortuño 1980]. Por ejemplo, El libro, los lápices. El gramema de caso se refiere a las diferentes formas que adoptan los pronombres personales, que pueden ser: Subjetivo: formas que ejercen la función del sujeto. Ejemplos: yo, tu, él, nosotros, etc. Objetivo: formas que pueden ejercer las funciones de objeto directo, objeto indirecto y circunstancial. Ejemplos, me, te, lo, la, etc. Terminal: formas del pronombre que pueden ejercer la función de término. Ejemplos, mi, conmigo, consigo, etc. Gramemas verbales. Se unen a ciertos lexemas para dar lugar a la significación de persona, tiempo, modo y número de los verbos. En la conjugación verbal, los lexemas permanecen invariables y a ellos se van uniendo todos los gramemas que expresan: 11

CAPÍTULO 2. MARCO TEÓRICO Derivativos Persona: primera, segunda y tercera. Tiempo: pasado, presente y futuro (simples y compuestos). Modo: indicativo, subjuntivo e imperativo. Número: singular y plural. Los derivativos son invariables. Los derivativos permiten un cambio de significado en los lexemas, por ejemplo perro = perrito, inclusive pueden cambiar la función, por ejemplo blanco = blanquear [Ortuño 1980]. Existen algunos lexemas que no admiten gramemas, pero si derivativo, por ejemplo ahora = ahorita. Formas no personales del verbo Los lexemas verbales, admiten la unión de algunos derivativos, que dan lugar a las formas no personales del verbo o verboides. En estos aparecen las marcas de persona, tiempo, modo y número [Beristáin 1984]. Estas formas no personales tienen la peculiaridad de que son verbos al mismo tiempo que pertenecen a otra clase de palabras. En seguida se enlista los tipos de verboides: Infinitivo. Es una forma verbal compuesta por el lexema más los derivados ar, er, ir. Sintácticamente se comporta como un sustantivo. A pesar de tener la función de sustantivo, el infinitivo admite en su construcción los modificadores del verbo. Participio: es una forma verbal compuesta por los derivativos más las formas ado, ido, ida. Sintácticamente se comporta como adjetivo y desempeña las funciones propias de los adjetivos como modificador directo. Sin embargo, admite en su construcción algunos modificadores como el circunstancial, agente, etc. Gerundio: es una forma verbal compuesta por los derivativos ando, iendo. Sintácticamente se comporta como adverbio y desempeña las funciones del adverbio como circunstancial, modificador directo, etc. 12

CAPÍTULO 2. MARCO TEÓRICO Frases verbales y fromas perifrásticas La unión de dos lexemas verbales que forman un solo bloque de significación y funcionan como una sola estructura se denomina frase verbal. En las frases verbales, uno de los lexemas aparece marcado con los gramemas propios del verbo conjugado. El otro lexema se marca con los derivativos de infinitivo, participio o gerundio. Al lexema que contiene las marcas morfológicas de persona, tiempo, modo y número se le llama verbo auxiliar [Ortuño 1980]. Las frases verbales pueden ser de dos tipos: 1. Formas compuestas: se componen del verbo auxiliar haber conjugado y de otro verbo en la forma de participio. Ejemplo, han venido. El participio en la forma verbal compuesta aporta, desde el punto de vista semántico el significado del verbo. 2. Formas perifrásticas: tienen gran carga semántica y existen dos formas generalizadas: a) La que se construye con el verbo auxiliar estar, y el gerundio que aporta la significación, por ejemplo, Yo estoy escribiendo una carta. b) La que se construye con el verbo auxiliar ir y el infinitivo del verbo que aporta la significación y entre estos se intercala en enlace a. Ejemplo, Mañana vamos a salir al campo. 2.2.2. Análisis sintáctico del español En el nivel sintáctico se estudian las estructuras lingüísticas y las funciones de los elementos que las componen. En el lenguaje se encuentra una unidad mínima que es la palabra; las palabras se van uniendo para formar estructuras más complejas, como el enunciado. La unidad sintáctica es el sintagma, que es una estructura lingüística formada por elementos que admiten varias clases de combinación. Se forma por lo menos de dos morfemas y deben ejercer una función en la estructura lingüística [Ortuño 1980]. 13

CAPÍTULO 2. MARCO TEÓRICO En la tabla 2.2 se muestran las funciones sintácticas y su clasificación [Beristáin 1984]: Tabla 2.2: Clasificación de las funciones sintácticas Clasificación Nombre Características Tipo de palabra Primaria Núcleos Son independientes, es decir, no requieren complementos o modificadores Sustantivos y verbos Secundaria Modificadores y complementos Son dependientes, sólo tienen valor gramatical referidos al núcleo al que corresponden Adjetivo, articulo y adverbio Terciaria Nexos (relacionantes) Relacionan sintagmas o palabras Preposiciones, conjunciones, pronombres relativos, entre otros Características del sintagma [Ortuño 1980]: Es un signo lingüístico, debido a que es biplánico, articulado y arbitrario. La característica de ser biplánico se refiere a que consta de dos planos, uno de contenido y otro de expresión. Está compuesto de núcleo o de núcleo y modificador(es). Se pueden presentar sintagmas compuestos de enlace y término. Tienen la propiedad de expansión, esto es el encadenamiento de los sintagmas para dar lugar a estructuras sintácticas más complejas, siempre y cuando los sintagmas que se unen no modifiquen las funciones de los sintagmas a los que se unen. Esta expansión de los sintagmas se lleva a cabo mediante: 14

CAPÍTULO 2. MARCO TEÓRICO Coordinación: Cuando el sintagma producto de la expansión realiza la misma función que el sintagma anterior. Este tipo de expansión se expresa por medio de un enlace coordinante: y, o, ni. Subordinación: Cuando el sintagma que se añade a un sintagma dado no desempeña su misma función, sino que lo modifica, subordinándose a él. En algunos casos, estos sintagmas llevan un enlace subordinante que puede ser: con, de, por, a, si, etc. Los sintagmas subordinados, siempre modifican al núcleo del que dependen. Existen diferentes clases de relación que se pueden establecer entre sintagmas y son [Ortuño 1980]: Enfrentamiento y coordinación: entre sintagmas del mismo nivel. Subordinación: entre sintagmas de diferente nivel. Existen dos clasificaciones para los sintagmas. La primera clasificación corresponde a su dependencia y composición [Ortuño 1980]: Independientes: tienen funcionamiento propio. Son los enunciados de la lengua. Dependientes: para funcionar, tienen que relacionarse y depender de otros sintagmas. Endocéntricos: están compuestos por núcleo o de núcleo y modificador. Exocéntricos: están compuestos de enlace y término. La otra clasificación es de acuerdo a su complejidad [Ortuño 1980]: Palabras: son sintagmas cuando están compuestas de dos morfemas como mínimo. Construcciones: son sintagmas compuestos por núcleo y modificador o por enlace y término. Es la estructura sintáctica mínima, resultado de la unión de dos o más palabras, carente de sentido y actitud del hablante. 15

CAPÍTULO 2. MARCO TEÓRICO Sintagma dependiente, que se incluye en los enunciados y preposiciones. No tiene sentido completo ni expresa la actitud del hablante. Su entonación corresponde a la del enunciado o proposición al que pertenece. Proposiciones: están formados por sujeto y predicado, pero no tienen independencia sintáctica. Es un sintagma dependiente incluido en un sintagma más complejo. No tiene sentido completo, pero expresa la actitud del hablante. La entonación y la pausa denotan el final del mensaje. Termina en coma o enlace, señalando su dependencia de otro sintagma. Se enlazan entre sí para formar enunciados de dos maneras: Coordinación: formando enunciados coordinados. Subordinación: formando enunciados complejos. Enunciados: son los sintagmas más completos y tienen independencia sintáctica. Es un sintagma independiente. Unidad de comunicación que tiene sentido completo, además expresa la actitud del hablante. Termina siempre en pausa y cambio de entonación. Empieza con letra mayúscula y termina en punto. Puede aparecer entre signos de admiración o entonación. Estudio del Enunciado El enunciado es un sintagma con independencia sintáctica, que puede estar formado por una palabra o varias. Para analizar el enunciado, se descompone en sintagmas más sencillos y se comprueba la función de cada uno. 16

CAPÍTULO 2. MARCO TEÓRICO Los enunciados pueden ser: Simples o compuestos. Unimembres o bimembres. De predicado verbal o de predicado no verbal. En la tabla 2.3, se describen brevemente los tipos de enunciados, y se dan algunos ejemplos [Beristáin 1984]. Enunciado unimembre Son aquellos que no tienen el enfrentamiento entre sujeto y predicado. Pueden ser endocéntricos o exocéntricos: Sintagma endocéntrico: está compuesto por núcleo y modificador. Sintagma exocéntrico: está compuesto por enlace y término. Los enunciados unimembres tienen una subclase denominada enunciados unimembres impersonales, que son aquellos que en su estructura contienen un verbo impersonal. Desde el punto de vista semántico, son enunciados que dependen del contexto lingüístico o situacional para darles sentido [Beristáin 1984]. Enunciado bimembre u oración El enunciado bimembre, también llamado oración es el que se forma por dos sintagmas, el sintagma sujeto y el sintagma predicado, que tienen una relación de enfrentamiento, que se reconoce por la concordancia que existe entre sus núcleos [Ortuño 1980]. En el enunciado bimembre no importa el lugar que ocupan el sujeto y el predicado, porque si se intercambian los lugares no se alteran las funciones de éstos. La oración es un sintagma con independencia sintáctica porque su estructura no depende de ninguna otra y tiene valor de comunicación. 17

CAPÍTULO 2. MARCO TEÓRICO Tabla 2.3: Tipos de enunciados en el español Tipo Descripción Ejemplo Simple Son aquellos que en su estructura no presentan ninguna proposición Los niños pequeños juegan muchas horas Compuesto Unimembre Bimembre Son aquellos que en su estructura presentan una o más proposiciones. Pueden ser coordinado o complejo En su estructura no presentan los sintagmas enfrentados de sujeto y predicado En su estructura hay dos sintagmas enfrentados: sujeto y predicado Los niños juegan con la pelota que compré la semana pasada Una noche lluviosa Los niños comen dulces De predicado verbal Son enunciados bimembres, cuyo núcleo del predicado es un verbo conjugado De predicado no verbal Son enunciados bimembres, cuyo núcleo del predicado no es un verbo conjugado Los niños usaron vestido Perro ladrador, poco mordelón 18

CAPÍTULO 2. MARCO TEÓRICO La oración puede estar formada por una o varias palabras: Oración formada por una palabra: es el predicado de la oración y supone la existencia de un sujeto tácito. Oración formada por varias palabras: está formado por los sintagmas sujeto y predicado que se agrupan en torno a sus núcleos. Estructura del sujeto: núcleo y modificadores El sujeto puede ser una sola palabra o varias que se organizan en torno al núcleo. Si el sujeto es una sola palabra, entonces es el núcleo del sujeto. Si el sujeto son varias palabras, es necesario reconocer el núcleo y sus modificadores. Los modificadores del núcleo del sujeto pueden ser directos e indirectos: Modificadores directos: son palabras o sintagmas (construcciones) que se unen directamente al núcleo sin la necesidad de un enlace subordinante. Se colocan delante o detrás de núcleo. Modificadores indirectos: palabras o sintagmas (construcciones) que se unen al núcleo mediante un enlace subordinante (de, del, etc.). Todos los modificadores indirectos (MI) están formados por enlace y término (E/T). A su vez, el término se organiza en sintagmas que pueden ser endocéntricos o exocéntricos. Los enlaces subordinantes que relacionan al modificador indirecto con el núcleo pueden ser preposiciones (donde el modificador indirecto se denomina complemento) o conjunciones comparativas (que, como). Siempre se colocan detrás del núcleo del sujeto. Aposición: es un sintagma que puede cambiar su posición con el núcleo del sujeto sin cambiar la estructura del sujeto. Además aclara el significado del núcleo de sujeto. Se pronuncia entre pausas y con cambio de entonación debido a que aparece entre comas o guiones [Ortuño 1980]. 19

CAPÍTULO 2. MARCO TEÓRICO El sujeto puede ser: Simple: si aparece un solo sintagma. Compuesto: si en su estructura aparecen sintagmas simples coordinados. Como conclusión en cuanto al análisis del sujeto se tiene lo siguiente: Todas las palabras que funcionan como núcleo de sujeto son sustantivos. Todas las palabras que funcionan como modificador directo del núcleo de sujeto son adjetivos. Todas las palabras que funcionan como enlaces subordinantes de modificador indirecto son preposiciones o partículas comparativas. Todas las palabras que funcionan como enlaces coordinantes son conjunciones. Estructura del predicado: núcleo y modificadores El predicado es un sintagma enfrentado al sujeto en el enunciado bimembre. El predicado puede estar formado por una palabra (que es el núcleo del predicado) o por varias palabras (que se organizan en sintagmas que se subordinan al núcleo) [Beristáin 1984]. Hay dos clases de predicados: Predicados verbales: su núcleo es siempre un verbo conjugado, es decir que contiene marcas morfológicas de modo y número para comprobar la concordancia con el núcleo del sujeto. Predicado no verbal: la palabra que funciona como núcleo es un sustantivo, adjetivo o adverbio. Los modificadores del predicado son un grupo de palabras que se organizan en sintagmas subordinándose al núcleo del predicado. Estos modificadores pueden ir delante o detrás del núcleo del predicado. 20

CAPÍTULO 2. MARCO TEÓRICO Los modificadores del predicado pueden ser [Ortuño 1980]: Objeto directo (OD) Objeto indirecto (OI) Circunstancial (C) Agente (AG) Predicativo (PVO) Objeto directo (OD) Existen dos procedimientos para ver si el modificador del predicado es objeto directo [Ortuño 1980]: Conmutación: el objeto directo puede ser sustituido por los pronombres lo, la, los, las, según el género y número del núcleo del sintagma. Ejemplo: Juan escribe unas cartas, Juan las escribe. Transformación a voz pasiva: Es objeto directo si al transformar la oración se convierte en sujeto de la oración en voz pasiva. Ejemplo: Unas cartas son escritas por Juan. Para estar seguros de que se trata de un objeto directo hay que realizar ambos procedimientos. Si el objeto directo tiene sólo un núcleo, se denomina simple; si tiene dos o más núcleos se denomina objeto directo compuesto. En ocasiones el objeto directo puede aparecer duplicado, ejemplo: A mi mamá la visité ayer. Objeto indirecto (OI) Para reconocer si el modificador del predicado verbal es objeto indirecto, se usan dos procedimientos [Ortuño 1980]: Conmutación: el objeto indirecto puede ser sustituido por le o les, según el número del núcleo de sintagma. 21

CAPÍTULO 2. MARCO TEÓRICO Transformación en voz pasiva: es objeto indirecto si al realizar la transformación, el sintagma permanece inalterable. Sin embargo, cuando la oración no tiene objeto indirecto no puede realizarse la transformación a voz pasiva. Para estar seguros de que el sintagma es objeto indirecto, hay que realizar los dos procedimientos. El objeto indirecto se construye siempre con las preposiciones a, para. El objeto indirecto puede aparecer expreso en los predicados mediante los pronombres personales le, les, me, te, se, nos. El objeto indirecto es simple si tiene un núcleo y compuesto si tiene dos o más núcleos. De la misma forma que el objeto directo, el indirecto puede aparecer duplicado. Ejemplo: Le compré dulces a mi primo. Circunstancial Para reconocerlo existen varios métodos aunque el más conocido es el de exclusión. Primero se debe descartar mediante exclusión que se trata de objeto directo e indirecto. Otros procedimientos son conmutación y transformación en voz pasiva. El circunstancial es un sintagma que no conmuta con ningún pronombre y tampoco cambia de función al transformarse en voz pasiva. El circunstancial puede ser una sola palabra, y si esta no es sustantivo pertenece sólo a la clase de los adverbios. Cuando el circunstancial es un conjunto de palabras, pueden agruparse como sintagmas endocéntricos o exocéntricos [Ortuño 1980]. En los sintagmas endocéntricos que funcionan como circunstanciales, el núcleo puede ser un sustantivo o un adverbio. 22

CAPÍTULO 2. MARCO TEÓRICO Los sintagmas exocéntricos que funcionan como circunstanciales. Al estar formados por enlace y término, el término puede tener como núcleo un sustantivo o un adverbio. Los circunstanciales pueden ser simples cuando tienen un solo núcleo o compuestos cuando tienen dos o más núcleos. Agente Algunos predicados construidos en voz pasiva, contienen un sintagma que cumple la función de agente. Para reconocer si es un agente se utiliza la transformación en voz activa. Si al hacer la transformación, el sintagma se convierte en el sujeto de la nueva oración en voz activa, entonces se trata de un agente. El agente se construye como un sintagma exocéntrico, de estructura enlace/término. Los enlaces coordinantes de los agentes sólo pueden ser por y de. Los agentes pueden ser simples cuando constan de un núcleo o compuestos cuando tienen dos o más núcleos unidos por medio de un enlace coordinante. Predicativo El predicativo es un modificador que tiene una doble relación de subordinación. Una relación con su núcleo verbal y otra con el sustantivo o el objeto directo [Ortuño 1980]. Existen dos tipos de predicativos: Los que modifican a los verbos copulativos. En este caso el predicativo es conmutable con el pronombre lo. El predicativo es invariable con género y número. Los que modifican a otros verbos. Además de la doble relación de subordinación, el predicativo concuerda con género y número con el sustantivo con que se relaciona [Beristáin 1984]. 23

CAPÍTULO 2. MARCO TEÓRICO El predicativo puede estar formado por sintagmas endocéntricos o exocéntricos y es simple si consta de un núcleo o compuesto si tiene dos o más núcleos unidos por enlaces coordinantes. Las palabras que pueden funcionar como núcleos de predicativo son: sustantivo, adjetivo y adverbio. El enunciado compuesto Coordinación y subordinación de enunciados En la comunicación ordinaria, las estructuras que se presentan son generalmente complejas, debido a que resultan de la unión de sintagmas que se enlazan entre sí. Esto es, que enunciados simples se van uniendo entre sí para formar enunciados complejos mediante enlaces que pueden ejercer dos funciones: coordinación y subordinación. La relación entre enunciados simples para formar enunciados complejos depende de un proceso que consta de dos etapas: 1. Los enunciados simples que se van a enlazar dejan de funcionar como enunciados y se convierten en proposiciones. 2. Las proposiciones se vinculan entre sí por medio de enlaces coordinantes y subordinantes, o bien marcas (coma, punto y coma y dos puntos). Oraciones coordinadas y sus clases La coordinación es una expansión que relaciona proposiciones del mismo nivel sintáctico, mediante enlaces coordinantes. Estos enlaces coordinantes pueden ser las conjunciones de distintas clases, copulativas, disyuntivas, adversativas y consecutivas; o bien pueden ser locuciones conjuntivas como sin embargo, por lo tanto, etc [Beristáin 1984]. Por ejemplo: Me gusta el agua y odio el refresco. En algunos casos, la coordinación no se realiza mediante un enlace coordinantes sino por una marca, que puede ser una coma, punto y coma o dos puntos. 24

CAPÍTULO 2. MARCO TEÓRICO Las oraciones coordinadas se clasifican por la clase semántica de sus enlaces coordinantes y pueden ser [Beristáin 1984]: Coordinada copulativa. Cuando sus enlaces son conjunciones copulativas: y, e, ni,, más, tanto... como. Coordinada disyuntiva. Cuando sus enlaces son conjunciones disyuntivas: o, u, ya... ya, ora... ora, bien... bien. Coordinada adversativa. Cuando sus enlaces son conjunciones adversativas: pero, más, aunque, sino, menos, antes, salvo, excepto, sin embargo, no obstante. Coordinada consecutiva. Cuando sus enlaces son conjunciones consecutivas: luego, aunque, pues, por tanto, de modo que, así que, por consiguiente, en consecuencia. En algunos casos hay enunciados simples que empiezan con un enlace coordinante, por ejemplo: Y todavía falta escribir la tesis. En este caso, el enlace coordinante carece de valor sintáctico. Oraciones subordinadas (complejas) y sus clases La subordinación es una expansión que relaciona proposiciones de diferente nivel sintáctico por medio de enlaces subordinantes. Los enlaces subordinantes pueden ser [Ortuño 1980]: Subjunciones. Desempeñan sólo la función de enlace, y pueden ser: si, que, porque, aunque. Relacionantes. Desempeñan dos funciones: Enlace. Objeto directo, objeto indirecto, circunstancial, etc. Corresponden a los pronombres relativos: que, cual, quien, cuyo, donde, como, cuando, cuanto [Beristáin 1984]. 25

CAPÍTULO 2. MARCO TEÓRICO En algunos casos las proposiciones subordinadas están representadas por sintagmas exocéntricos de estructura sujeto/predicado, por lo tanto no se relacionan mediante enlaces subordinantes. La oración subordinada o compleja está formada por una proposición principal y una subordinada. La proposición subordinada tiene que incluirse en la estructura del sujeto, la del predicado o formar por sí misma un enunciado sujeto. Esta es la diferencia con las oraciones coordinadas, donde sus proposiciones no pueden formar parte de otro sintagma [Ortuño 1980]. Las oraciones complejas pueden estar formadas por una proposición subordinada que tiene la estructura de sintagma endocéntrico (núcleo/modificador). Las oraciones subordinadas se clasifican según la función que las conjunciones subordinantes desempeñan dentro de la estructura de la oración principal, en [Beristáin 1984]: Subordinación sustantiva: una proposición que desempeña una función sustantiva. Subordinación adjetiva: una proposición en función adjetiva. Subordinación adverbial: una proposición en función adverbial. La mayoría de las proposiciones subordinadas se organizan en sintagmas de estructuras enlace/término. Por lo tanto al reconocer el término, se observa que es una proposición con estructura sujeto/predicado, donde el sujeto vuelve a ser el enlace subordinante, que es un relacionante con doble función: Enlace y Sujeto de la proposición. El objeto directo del núcleo verbal de una oración puede ser una proposición en función sustantiva. El predicativo de núcleo verbal de una oración puede ser una proposición en función sustantiva. 26

CAPÍTULO 2. MARCO TEÓRICO Hay otros casos donde las proposiciones ejercen función sustantiva, como en el caso de la aposición, el vocativo, el término del objeto directo, objeto indirecto, agente, circunstancial, etc. Las proposiciones adjetivas se caracterizan porque siempre aparecen encabezadas por relacionantes, que además de su función de enlace, pueden ejercer función sustantiva, adjetiva y adverbial, como se muestra en la tabla 2.4. Tabla 2.4: Funciones de los relacionantes en el análisis sintáctico Relacionante Sustantivo Adjetivo Adverbial Que X Cual Quien X X Cuyo Donde Cuando Como X X X X Cuanto X X X Son proposiciones adverbiales aquellas que desempeñan la función de un adverbio o de un sintagma adverbial, es decir circunstancial, modificador de adjetivo o adverbio, predicado no verbal, etc. Para clasificar las proposiciones adverbiales se utiliza un criterio semántico, por tanto, se dice que hay proposiciones adverbiales de lugar, tiempo, modo y cantidad [Ortuño 1980]. 27

CAPÍTULO 2. MARCO TEÓRICO 2.3. Análisis sintáctico en Lingüistica Computacional El lenguaje natural o simplemente lenguaje, se define como el conjunto de elementos que utilizan los humanos para comunicarse. Este puede tener varias formas, pero generalmente se trabaja con dos de ellas: voz y texto [Galicia- Haro & Gelbukh 2007a]. El conjunto de elementos que componen al lenguaje natural es tan extenso que para su estudio se divide en 6 niveles, de tal forma que en cada nivel se puede estudiar un aspecto importante del lenguaje. Los niveles en los que típicamente se divide el estudio del lenguaje son: fonológico, morfológico, sintáctico, semántico, pragmático y discursivo. A pesar de que la división entre los niveles no es definitiva en algunos casos, se considera esta división suficiente, para el estudio del lenguaje. En el caso particular de este trabajo de tesis, se trabajará en el nivel sintáctico y morfológico del lenguaje. Todos los idiomas que pertenecen a una misma familia de lenguas (conjunto de idiomas que se originaron de una misma lengua madre) comparten similitudes en su estructura, a pesar de esto, es fácil comprobar que no existe una traducción directa entre idiomas y por lo tanto nunca se tendrá una estructura idiomática igual a otra. Dado que existen diferencias entre los lenguajes, es de esperarse también existan diferencias sintácticas entre ellos. El objeto de estudio en el nivel sintáctico es, como su nombre lo indica, la sintaxis en el lenguaje generalmente escrito. La sintaxis define la forma en que las palabras se relacionan entre si y la función que tienen éstas al generar un texto. El estudio de la sintaxis se basa en dos ejes principales: por un lado debe clasificar con base en la función desarrollada por las palabras que participan en una lengua y por otro lado debe conocer las reglas que rigen la forma en que las palabras se pueden relacionar entre ellas [Galicia-Haro & Gelbukh 2007a]. Sabemos que un lenguaje es dominio de las personas quienes lo practican y que este cambia en el tiempo; son los practicantes del lenguaje quienes 28

CAPÍTULO 2. MARCO TEÓRICO agregan o quitan las palabras que son válidas dentro de un lenguaje en particular. Al conjunto de palabras que se utilizan en un lenguaje en particular se le llama léxico del lenguaje o simplemente léxico. De manera intuitiva sabemos que no todas las palabras se utilizan de la misma forma, sino que se utilizan de una manera diferente de acuerdo con lo que se desee expresar en un lenguaje en particular. Con base en la función que desempeñan las palabras dentro del lenguaje estas se pueden clasificar en varios tipos, en el caso del español podemos clasificar a las palabras en las siguientes clases: nombres propios, pronombres, sustantivos, verbos, adverbios, adjetivos, artículos, preposiciones y conjunciones. A cada una de las clases en las que se dividen las palabras se les conoce como clase gramatical (Part Of Speech en inglés). Dado que una computadora no sabe identificar a primera instancia la categoría a la que pertenece cada una de las palabras, en sistemas orientados al Procesamiento del Lenguaje Natural se suele preprocesar el texto utilizando un etiquetado para cada una de las palabras, en el cual se indica el tipo de palabra al que pertenece, a esta técnica se le llama etiquetado POS (POS tagging) [Jurafsky & Martin 1990]. El otro de los ejes que estudia la sintaxis se refiere a la relación que existe entre las palabras, con esto nos referimos al hecho de que existen implícitamente, en los practicantes de una lengua, una serie de reglas que nos especifican la forma en que debemos utilizar las palabras para expresar una idea. Al conjunto de reglas en las que se indica la forma en que se pueden asociar las palabras se llama gramática. El número de reglas de las que se puede constituir una gramática para un lenguaje en particular puede ser amplio y no necesariamente definitivo. Comúnmente en el lenguaje español se utiliza una gramática que tiene el siguiente orden: sujeto-verbo-complemento. Aunque la anterior es una estructura gramatical muy común, no es única pues se puede aceptar las siguientes combinaciones [Galicia-Haro & Gelbukh 2007a]. Complemento-verbo-sujeto 29