Tema 2: Análisis léxico

Documentos relacionados
Unidad Didáctica 2. Elementos básicos del lenguaje Java Tipos, declaraciones, expresiones y asignaciones

Centro Asociado Palma de Mallorca. Antonio Rivero Cuesta

PROCESADORES DE LENGUAJES I PRÁCTICA DE LABORATORIO 4

LEX. Las definiciones y subrutinas son opcionales. El segundo %% es opcional pero el primer %% indica el comienzo de las reglas.

Teoría de Autómatas y Lenguajes Formales, IS17 Ingeniería Técnica en Informática de Sistemas. Práctica 1: Introducción al Analizador Léxico FLEX

El proceso del Análisis Léxico

Compiladores e intérpretes Análisis Léxico I. Análisis Léxico I

Lección 2 Introducción al lenguaje C

Elementos de un programa en C

Elementos léxicos del lenguaje de programación Java

Tema 5 Tabla de Símbolos

Procesadores de lenguaje Tema 2 Análisis léxico

Estructuras de Datos Declaraciones Tipos de Datos

Generación de Código Intermedio

16 Análisis sintáctico I

Seminario de introducción a Flex

Variables. Una variable no es más que un nombre simbólico que identifica una dirección de memoria: vs.

Fundamentos de Programación Visual Basic

Construcciones del Lenguaje Java

Programación Estructurada

3.3 Conceptos Básicos del Lenguaje Java

Unidad II Fundamentos de C++ M.C. Juan Carlos Olivares Rojas

Todo programa en 'C' consta de una o más funciones, una de las cuales se llama main.

Informática General 2016 Cátedra: Valeria Drelichman, Pedro Paleo, Leonardo Nadel, Norma Morales

Tema 2. El lenguaje de programación Java (Parte 1)

Principios de Computadoras II

Elementos léxicos del lenguaje de programación C

Tema 12: Analizadores sintácticos funcionales

Expresiones y sentencias

LENGUAJE. Tema 2 Elementos de un programa

Unidad V Análisis Semántico. M.C. Juan Carlos Olivares Rojas

Palabras reservadas de C++ y C. Una palabra reservada no puede declararse como un identificador, esto haría un conflicto entre conectores y funciones.

COMPILADORES E INTERPRETES

Tema 11: Analizadores sintácticos funcionales

Conceptos básicos sobre gramáticas

PHP: Lenguaje de programación

Generador de analizadores léxicos FLEX

5. Sentencias selectivas o condicionales

Introducción a Java (II) Dr. (c) Noé Alejandro Castro Sánchez

TEORÍA DE AUTÓMATAS Y LENGUAJES FORMALES TRABAJO DE PRÁCTICAS. Convocatoria de junio de 2013

Lenguaje C Elementos de un Programa. Ing. Hugo Fdo. Velasco Peña Universidad Nacional 2006

CONCEPTOS BASICOS DEL LENGUAJE JAVA

LABORATORIO DE PROCESADORES DE LENGUAJE Curso: Práctica 2: Analizador léxico/sintáctico/semántico con Flex y Bison

4. Operadores Operador asignación

Relación de prácticas de la asignatura METODOLOGÍA DE LA PROGRAMACIÓN Segundo Cuatrimestre Curso º Grado en Informática

Informática. JavaScript: Lenguaje de programación. Fco J. Martín Mateos Carmen Graciani

INTRODUCCIóN A LA PROGRAMACIóN APUNTES DE JAVA APUNTES DE JAVA

REFERENCIA DEL LENGUAJE

TEMA 2: ANÁLISIS LÉXICO-SINTÁCTICO

LA ESTRUCTURA DE DATOS PILA EN JAVA. CLASE STACK DEL API JAVA. EJEMPLO Y EJERCICIOS RESUELTOS. (CU00923C)

Expresiones y sentencias

Instrucciones de control

Fundamentos de programación JAVA

Tema 7. Generación de código

Carlos Montenegro. Programación Orientada a Objetos Proyecto Curricular de Ingeniería de Sistemas

Compiladores e Intérpretes Proyecto N 1 Sintaxis de MiniJava Segundo Cuatrimestre de 2015

PROCESADORES DE LENGUAJE. Hoja de ejercicios de FLEX

Fundamentos de Programación. Flujo de Control I: Estructuras selectivas

Lenguaje de programación C. Introducción

Normas de estilo para la codificación de programas

Variables. Una variable no es más que un nombre simbólico que identifica una dirección de memoria: vs.

Unidad II. Fundamentos de programación en Java. Ing. José Luis Llamas Cárdenas

Informática Ingeniería en Electrónica y Automática Industrial

Para leer la entrada de consola, lo primero que se hace es construir un Scanner que este asociado al flujo de entrada estándar System.

Programación de Computadores 4 Iteraciones y Decisiones. Prof. Javier Cañas. Universidad Técnica Federico Santa María Departamento de Informática

TEMA 2. EL LENGUAJE C. ELEMENTOS BÁSICOS

Introducción a ANTLR. Procesadores de Lenguaje. 1 de 25

2ª Convocatoria 2008/2009 (15-IX-2009) 4º Ing. Informática. CPS. Universidad de Zaragoza Tiempo de realización: 3 horas

TRADUCTORES, COMPILADORES E INTÉRPRETES. EJERCICIOS TEMA 5, 6, 7 y 8.

Un identificador le da nombre único a un elemento en un programa (Variables, procedimientos, etc.). No puede contener operadores como + - * /

Desde los programas más simples escritos en un lenguaje de programación suelen realizar tres tareas en forma secuencial.

Programación en java. Estructuras algorítmicas

PROGRAMACIÓN ORIENTADA A OBJETOS (L40629) Sabino Miranda-Jiménez

Programación en C. Algoritmo y Estructura de Datos. Ing. M. Laura López. Programación en C

ANEXO XVII DE LA RESOLUCION N

PROCESADORES DE LENGUAJE EXAMEN FINAL 8-JUNIO-07

Lenguaje C. Tipos de Datos Simples y Estructuras de Control

UNIVERSIDAD DE SEVILLA PRÁCTICAS DE LABORATORIO JFLEX LENGUAJES FORMALES Y AUTÓMATAS CURSO 2005/2006

Identificadores, palabras reservadas, tipos de datos, operadores aritméticos y el sistema estándar de salida en Java

UNIDAD V. Analisis Semantico. 5.1 Introduccion. Analizador Semántico. Verifica que el significado de las construcciones del lenguaje tengan sentido.

UNIVERSIDAD DE SEVILLA PRÁCTICAS DE LABORATORIO ANÁLISIS SINTÁCTICO (1) LENGUAJES FORMALES Y AUTÓMATAS CURSO 2006/2007

Tema: Estructuras de Selección en C#.

Scripting en el cliente: Javascript. Tecnologías Web

Tema 2. El lenguaje JAVA

CUP. Diseño de compiladores. Estructura del archivo CUP. Estructura del archivo CUP. Estructura del archivo CUP. Estructura del archivo CUP 20/04/2014

Ubicación e historia

Curso Introducción JAVA Pág.: 1

UNIDAD 1. Algoritmo se define como un conjunto de instrucciones que la computadora debe seguir para resolver un problema.

Programación en Lenguaje C

Programación estructurada (Introducción a lenguaje C)

Tema: Autómatas de Estado Finitos

1. Cuántas sentencias hay en la secuencia principal del siguiente programa?

Lenguajes de programación

Java para programadores

Desarrollo de Programas. Prof. Lisbeth C. Pérez Rivas

Manual de referencia del lenguaje Micro-C

Fundamentos de programación

Programa Java. El lenguaje de programación Java. Comentarios. Programa Java. Palabras reservadas. Identificadores

12 La herramienta LEX

SSL Guia de Ejercicios

Transcripción:

Tema 2: Análisis léxico Procesamiento de Lenguajes Dept. de Lenguajes y Sistemas Informáticos Universidad de Alicante Procesamiento de Lenguajes Tema 2: Análisis léxico 1 / 22

Fundamentos del análisis léxico El analizador léxico se encarga de suministrar al analizador sintáctico una serie de unidades lógicas llamadas elementos léxicos que resultan de agrupar los caracteres del fichero de entrada Cada uno de estos elementos léxicos se denomina token El analizador léxico es una función o método que es llamado por el analizador sintáctico cada vez que necesita conocer un nuevo token para continuar el proceso de traducción Es el único módulo del compilador que maneja el fichero de entrada Procesamiento de Lenguajes Tema 2: Análisis léxico 2 / 22

Los tokens Clases de tokens: palabras reservadas (if, then,... ) símbolos especiales (operadores aritméticos, lógicos,... ) cadenas no específicas (identificador, número real,... ) EOF (fin de fichero) La cadena de caracteres concreta que se ha reconocido como un token determinado se denomina lexema El lexema no juega un papel desde el punto de vista estructural, pero sí desde el semántico A la información auxiliar que acompaña a un token se le llama atributos del token (lexema, fila, columna,... ) Procesamiento de Lenguajes Tema 2: Análisis léxico 3 / 22

Caracterización de los tokens Los tokens se especifican mediante expresiones regulares Cómo hacemos un programa que segmente en tokens una entrada determinada? Siguiendo los caracteres sobre un diagrama de transiciones (algo parecido a un AFD) Devolviendo tokens al llegar a estados de aceptación El algoritmo lo veremos en detalle más adelante Procesamiento de Lenguajes Tema 2: Análisis léxico 4 / 22

Ejemplo de análisis léxico EXPR. REGULAR TOKEN [a-z][a-z0-9]* id if if [0-9]+ entero > mayor >= mayorig / div Traza de una cadena: /r2d2 >= if 5=a TOKEN LEXEMA FILA COLUMNA div / 1 2 id r2d2 1 3 mayorig >= 1 9 if if 2 1 entero 5 2 4 error léxico en = id a 2 6 (si hay recuperación de errores) EOF Procesamiento de Lenguajes Tema 2: Análisis léxico 5 / 22

Conclusiones tras la traza Principio de la subcadena más larga Con algunos tokens nos tenemos que pasar leyendo la entrada (es decir, el fichero) El analizador léxico ignora los espacios en blanco, comentarios, saltos de línea,... pero sigue contando líneas y columnas Política de elección de palabra reservada sobre identificador Errores léxicos: caracteres no permitidos en el lenguaje (p.ej. $ ) o no permitidos en un contexto determinado (p.ej. 12.3 vs. o.23 ) Procesamiento de Lenguajes Tema 2: Análisis léxico 6 / 22

Problema Indica la segmentación en tokens y caracteres devueltos a la entrada Especificación léxica EXPRESIÓN ELEMENTO REGULAR LÉXICO <> distinto < menor > mayor + opsuma - opsuma ++ incremento -- decremento -> desref ---> dobleref := asig Cadena de entrada (fichero) <<>+++-> ---> :==:- --> Procesamiento de Lenguajes Tema 2: Análisis léxico 7 / 22

Ejemplo con un diagrama de transiciones (DT) d d 8 otro 9 * REAL d 6 7 **. otro ENTERO 0 d 4 otro 5 * ENTERO + + 1 3 otro * 2 INCR Expr. regular Token + SUMA ++ INCR [0-9]+ ENTERO ([0-9]+)"."([0-9]+) REAL SUMA Procesamiento de Lenguajes Tema 2: Análisis léxico 8 / 22

Conclusiones tras el diseño con DT En el DT se especifica lo que debe hacer el analizador léxico con cada carácter de la entrada Algunos estados finales están marcados con uno o más asteriscos; esto indica que se debe devolver al buffer de entrada tantos caracteres como asteriscos tenga el estado. De los estados finales no sale ninguna transición En algunos casos (números, id) es necesario leer un carácter más para estar seguros de haber reconocido el token completo Procesamiento de Lenguajes Tema 2: Análisis léxico 9 / 22

Construcción automática de analizadores léxicos lex/flex: [a-z][a-z0-9]* { return ID;} ANTLR: ID : ( a.. z )( a.. z 0.. 9 )+ ;... Procesamiento de Lenguajes Tema 2: Análisis léxico 10 / 22

Funcionamiento del DT d d 8 otro 9 * REAL d 6 7 **. otro ENTERO 0 d 4 otro 5 * ENTERO + + 1 3 otro * 2 SUMA INCR Trazas 1 12+ 2 12.35 3 ++123 4 1 5 1+2++ 6 1.+ Procesamiento de Lenguajes Tema 2: Análisis léxico 11 / 22

Conclusiones tras la traza con DT 1 Mientras se analiza la cadena de entrada, el analizador debe recordar los n caracteres leídos anteriormente (donde n es el número máximo de asteriscos que aparecen en cualquier estado del DT) 2 Cuando se llega a un estado de aceptación, se devuelve el token asociado a ese estado, y se reintegran al buffer de entrada tantos caracteres como asteriscos tenga asociados el estado 3 IMPORTANTE: en el diagrama suelen estar previstas todas las posibles transiciones de salida de un estado (excepto en los de aceptación), para ello se usa la etiqueta otro. Si no hay transición posible es un error (y no se indica en el DT). Procesamiento de Lenguajes Tema 2: Análisis léxico 12 / 22

Lectura de ficheros carácter a carácter con Java En PL recomendamos utilizar java.io.randomaccessfile Función recomendada para leer caracteres: public char leercaracter() { char currentchar; try { currentchar = (char)fichero.readbyte(); return currentchar; } catch (EOFException e) { return EOF; // constante estática de la clase } catch (IOException e) {... // error lectura } return ; } ATENCIÓN: es posible que sea necesario trucar esta función (para tener en cuenta los caracteres leídos de más) Procesamiento de Lenguajes Tema 2: Análisis léxico 13 / 22

Caracteres leídos después del token En muchos casos, es necesario leer caracteres de más para asegurar el final del token. Ejemplo: 1234+34* IMPORTANTE: Los caracteres leídos de más se deben devolver a la entrada para que sean leídos la siguiente vez que se invoque al analizador léxico (no se pueden perder) Hay dos formas de implementar esa devolución: Retrocediendo el puntero de lectura del fichero (usando el método.seek(...)) Haciendo buffering, almacenando en un vector (que funcionaría como una cola) los caracteres, y trucando la función de lectura de caracteres para consultar el buffer antes de leer del fichero Procesamiento de Lenguajes Tema 2: Análisis léxico 14 / 22

Palabras reservadas 1 Codificación explícita en el DT (no recomendable, excepto si se usa un generador automático de analizadores léxicos: lex, ANTLR,...) 0 i 1 old 2 otro n 3 old 1 t 4 otro 2 1 5 old otro 6 * int old 1 ld otro 2 * ident 2 O bien, tras reconocer un identificador en el DT, se consulta en una lista de palabras reservadas (o en la tabla de símbolos) para decidir el token a devolver Procesamiento de Lenguajes Tema 2: Análisis léxico 15 / 22

Función de transición en DT 1 Matriz (dispersa) gestionada por rangos 2 Implementación en código mediante instrucciones de selección 3 Hay que almacenar qué token se debe devolver para cada estado final, y en el caso del diagrama de transiciones, el número de asteriscos (que es el número de caracteres que hay que devolver a la entrada o almacenar en el buffer) Procesamiento de Lenguajes Tema 2: Análisis léxico 16 / 22

Codificación de la tabla de transiciones 1 > d d 4 otro = 2 3 5 * int delta (int estado, int c) { ENTERO switch (estado) { case 1: if (c== > ) return 2; else if (c>= 0 && c<= 9 ) return 4; else return -1; break; mayorig case 2: if (c== = ) return 3; else return -1; break; case 3: return -1; break; case 4: if (c>= 0 && c<= 9 ) return 4; else return 5; break; case 5: return -1; break; default: /* error fatal */ } } Procesamiento de Lenguajes Tema 2: Análisis léxico 17 / 22

Representación de los tokens public class Token { public int fila; public int columna; public String lexema; public int tipo; // tipo es: ID, ENTERO, REAL...... } public static final int ID = 1, ENTERO = 2, REAL = 3,... FINFICHERO =...; Procesamiento de Lenguajes Tema 2: Análisis léxico 18 / 22

Ejercicio 1 Diseña un diagrama de transiciones (DT) para reconocer los siguientes componentes léxicos: numentero un número entero sin signo con dígitos entre 0 y 9, que no puede empezar por 0 numoctal un número entero en octal, que empieza por 0 y con dígitos entre 0 y 7 (p.ej. 015 es 13) numhex un número entero en hexadecimal, que empieza por 0x y con dígitos entre 0 y 9, y letras entre la A y la F (mayúsculas siempre) id identificador: secuencia de letras y dígitos que empieza por letra El 0 se debe considerar que es un número octal. A continuación, indica cómo un analizador léxico construido sobre el DT anterior separaría en tokens la secuencia de caracteres 09 120x021 0190xAF 0x9AGF 0xaF. Procesamiento de Lenguajes Tema 2: Análisis léxico 19 / 22

Ejercicio 2 Diseña un diagrama de transiciones para reconocer los siguientes componentes léxicos: if ifthen iftrue oftrue ident la palabra reservada if. la palabra reservada ifthen. la palabra reservada iftrue. la palabra reservada oftrue. cualquier secuencia de letras y dígitos que empiece por una letra y no coincida con ninguna de las palabras reservadas. mulop el símbolo / assop el símbolo = mulassop el símbolo /= addassop el símbolo += identico el símbolo /==/ Indica cómo separa este analizador la secuencia de caracteres if5true/==/iftrue+=true/==false en tokens. Procesamiento de Lenguajes Tema 2: Análisis léxico 20 / 22

Ejercicio 3 Diseña un diagrama de transiciones para reconocer los siguientes componentes léxicos: numentero un número entero sin signo con uno o más dígitos entre 0 y 9 numexpo un número que tiene uno o más dígitos, una E seguida de un signo + o - opcional, y que acaba con una secuencia de uno o más dígitos. Ejemplos: 1E1, 112E+112 id identificador: secuencia de letras y dígitos que empieza por letra min la palabra reservada min mon la palabra reservada mon dosp el símbolo : igual el símbolo = asig el símbolo := equiv el símbolo :==: A continuación, indica cómo un analizador léxico construido sobre el diagrama de transiciones anterior separaría en tokens la secuencia de caracteres 09 :==mono 12E-34 123E+3a3E27. Procesamiento de Lenguajes Tema 2: Análisis léxico 21 / 22

Ejercicio 4 Diseña un diagrama de transiciones para reconocer los siguientes componentes léxicos: numentero un número entero sin signo con uno o más dígitos entre 0 y 9 numfija un número que tiene cero o más dígitos, un punto, y una secuencia de uno o más dígitos. Ejemplos:.233, 1.1, 112.112 id identificador: secuencia de letras y dígitos que empieza por letra del la palabra reservada del delete la palabra reservada delete postdec el símbolo -- flecha el símbolo --> mayor el símbolo > Procesamiento de Lenguajes Tema 2: Análisis léxico 22 / 22