Jesús Manuel Montero Burga. Universidad Europea de Madrid C/Tajo s/n 28670, Villaviciosa de Odón, Madrid, C/Tajo s/n. correoyeray@eresmas.

)LOWUR:HEGH3iJLQDV1R'HVHDEOHV %DVDGRHQOD&DWHJRUL]DFLyQGH7H[WRV Jesús Manuel Montero Burga Universidad Europea de Madrid C/Tajo s/n 28670, Villaviciosa de Odón, Madrid, jmburga@eresmas.com <HUD\6iQFKH]+HUQDQGH] Universidad Europea de Madrid C/Tajo s/n 28670, Villaviciosa de Odón, Madrid, correoyeray@eresmas.com Este es un artículo que intenta explicar como se crea, en que se basa y como funciona un filtro Web de páginas no recomendadas por su contenido sexual, violento o racista.. Introduction En los últimos tiempos se viene dando un problema importante respecto a los contenidos ofertados en Internet. Este problema es el acceso a páginas Web no deseables. La comunidad internacional busca diferentes tipos de soluciones contra este tipo de problemas actuales. Existen en este momento dos tipos de soluciones básicas. Las regulatorias y las técnicas. Las regulatorias serían las soluciones de tipo legislativo, el problema en este caso es que tendría que ser una legislación internacional la que permitiera que este tipo de soluciones fueran apropiadas y funcionaran correctamente, sin mencionar que páginas Web no legales no son necesariamente páginas no deseables. Las soluciones técnicas son por ejemplo los sistemas de filtrado de páginas, aquellos que no permiten que se visualice un conjunto de páginas que no deseamos. Entre estos sistemas de filtrado encontramos varios tipos, que enumeraremos en este momento y que pasaremos a comentar más adelante en este artículo. Estos tipos pueden ser las Listas Blancas y Negras, que son listas de páginas deseables y no deseables. Los que se encargan de buscar palabras clave en las páginas y según se encuentren o no las palabras dejar pasar la página o no, filtros Proxy, algún explorador de Internet en sustitución del IE o del Netscape con su propia interfaz [1HW3URWHFW, 1]. Estos sistemas pueden ser instalados en el servidor o en el cliente, aunque siempre instalados en un servidor resultarán más seguros que instalados en el cliente. Por lo tanto los objetivos están claros. Con el tipo de filtros actuales no conseguimos restringir todo el contenido no deseable que se encuentra en Internet, con lo que el objetivo es desarrollar un sistema de filtrado en servidor, con posibilidad de ser

instalado en un cliente, basado en técnicas más sofisticadas. 1 Técnicas de Filtrado De las anteriores técnicas de filtrado antes nombradas, ninguna de ellas es suficientemente efectiva para nuestro objetivo. Las páginas Blancas y Negras tienen el problema de que debido al dinamismo existente en Internet hoy en día. Al cabo de un solo día aparecen tantas páginas nuevas en Internet, que sería imposible mantener una Lista de páginas actualizadas en tiempo real, que es lo que haría falta para que un filtro basado en listas fuera efectivo. La búsqueda de palabras clave tampoco es efectiva. Si le damos al filtro muchas palabras clave para que no deje pasar páginas, posiblemente el filtro sea muy restrictivo, pero eso no significa que sea efectivo. El interés de este proyecto reside en que podamos acceder a páginas que por su contenido léxico puedan parecer no deseables, pero que a su vez no nos permita acceder a páginas con el mismo o parecido contenido léxico y que si sea no deseable. Utilizando la técnica de desarrollar un filtro a través de palabras clave, restringiríamos muchas páginas pero no permitiríamos el acceso a otras más interesantes. Desarrollar un propio explorador, también puede ser efectivo, pero forzosamente lo tendremos que combinar con algún otro sistema de filtrado de páginas, ya sean las palabras clave, las listas blancas y negras o cualquier otra solución que se nos ocurra, pues por si solo, el explorador no resulta efectivo. La importancia de desarrollar un filtro para un servidor y no para un cliente, reside en que es mucho más seguro un servidor que un equipo cliente, con lo que sería más complicado saltarse el filtro desde un servidor que desde un cliente. Un filtro de páginas Web se caracteriza ante todo por su eficiencia en el paso o restricción de las páginas que deseamos filtrar. Según esta eficiencia, el filtro se considerará más o menos bueno y por lo que acabamos de ver estas técnicas no son demasiado efectivas. Algo importante en la medición de la efectividad de estas técnicas es el número de lenguajes para los que funciona. El filtrado mediante palabras clave es bastante poco efectivo en este aspecto, puesto que resulta muy complicado encontrar palabras clave para todos los posibles lenguajes. Otra técnica de filtrado se basa en el tratamiento de imágenes. Si este tratamiento es efectivo, esta podría ser una buena técnica para filtrar páginas no deseables. Aunque sería conveniente comentar que lo más interesante sería combinar esta técnica con otra técnica de tratamiento de texto. Pues existen páginas no deseables sin imágenes, pero que son no deseables por el contenido literario de la página. Hasta hoy en día, los diez mejores filtros utilizados son: 1. BizGuard 2. CyberPatrol 3. CYBERsitter 4. Cyber Snoop 5. Internet Watcher 2000 6. Net Nanny 7. Norton Internet Security 8. Optenet 9. SurfMonkey 10. X-stop Estos han sido probados y testados por los desarrolladores de

NetProtect, que es un proyecto organizado parcialmente por la Comisión Europea para el desarrollo de filtros para el contenido en Internet. De los 50 programas probados por el NetProtect, estos diez que hemos enumerado anteriormente son los mejores. De estos diez, absolutamente todos utilizan Listas Blancas y/o Listas Negras, todos a excepción del X-stop utilizan la solución de las Palabras Clave, y solamente 5 de ellos utilizan un Proxy como filtro, y dos de ellos, que casualmente también utilizan un filtro Proxy, usan un explorador Web propio. Esto nos indica que las técnicas anteriormente nombradas no son nada efectivas por si solas, pero que si pueden lograr cierto grado de efectividad combinándolas adecuadamente, aunque como también comprobaremos, esta combinación tampoco es suficientemente efectiva para nuestro propósito. Nos preguntaremos por que nadie usa el tratamiento de imágenes, puesto que parece ser una solución muy efectiva, ya por si sola, y efectiva casi 100% si se combina con las otras y el tratamiento es lo suficientemente serio y eficaz. Suponemos que el tratamiento de imágenes no se utiliza por las dificultades técnicas que ello supone, así como la dificultad de implementación, a parte que seguramente ralentizaría bastante la navegación. De los diez programas anteriormente enumerados, y según la evaluación de la gente de NetProtect, la mejor efectividad de bloqueo de páginas Web ha resultado ser de un 79% en el Optenet, que no resulta ser el mejor de los filtros en puntuación total, puesto que bloquea demasiadas páginas que no son no deseables y que si debería dejar pasar, hasta un 25% de esas páginas, con lo cual su puntuación total sobre cien se queda en unos 77 según los desarrolladores de NetProtect. El filtro que peores resultados de bloqueo de páginas no deseables ha obtenido, ha sido el Net Nanny, con tan solo un 20% de bloqueo de páginas. Este filtro utiliza las técnicas de Listas y Palabras Clave. Su sobre bloqueo ha sido de un 5% y su puntuación final de 33 puntos sobre 100. Hay que entender que este Net Nanny, ha sido el peor programa de los diez enumerados en este artículo, pero ha sido el 10 mejor programa de los 50 probados por NetProtect, con lo que queda de manifiesto que la efectividad en filtros de páginas no deseables, está todavía muy lejos de conseguir unos resultados generales fiables. Según los estudios de NetProtect, el mejor filtro encontrado en el mercado por ellos pasaría a ser el X-Stop, que obtiene un 65% de bloqueo efectivo, y tan solo un 4% de sobre bloqueo, con una puntuación final sobre cien de 78 puntos. Curiosamente, este sistema tan solo utiliza la técnica de las Listas Blancas y Listas Negras, que deben estar muy actualizadas, y un Proxy como filtro. La mayoría de estos filtros, exceptuando BizGuard, Cyber Snoop e Internet Watcher 2000, que solo

filtran porno, filtran páginas porno, racistas, violentas, sobre fabricación de bombas, y de drogas. También la mayoría soportan protocolos HTTP, protocolos de e-mail, de Chat, e incluso algunos soportan ICQ. Cyber Setter, que no es de los que más puntuación ha obtenido, es el que soporta más protocolos, a parte de los anteriormente mencionados. Soporta FTP, grupos de noticias, y AOL instant Messenger. Casi todos ellos ralentizan un poco la navegación, pero esto, aunque importante, es lo menos importante en el tema del filtrado de páginas. Todos ellos vienen a costar por un año de duración entre 35 del Optenet, hasta los 93 del Norton Internet Security. Según los estudios de NetProtect, la mayoría de los usuarios de Internet, que utilizaran un filtro de páginas no deseables, no admitirían un filtro de páginas que tuviese un efectividad de bloqueo inferior al 90%, con lo cual estamos ante la situación de que el 90% de efectividad sería suficientemente bueno. Entonces hay que tener en cuenta que el filtro con mayor efectividad de bloqueo está todavía un 11% por debajo de esa marca, con lo que estamos de acuerdo que todavía estamos lejos de conseguir una efectividad realmente positiva. 2 Filtrado como Categorización de Texto Esta técnica de filtrado se basa en la clasificación de documentos en dos categorías complementarias, deseables o no deseables. Podemos abarcar esta técnica con categorización de texto. &DWHJRUL]DFLyQGH7H[WR Clasificación automática de documentos en categorías predefinidas [$XWRPDWLF:HESDJHFDWHJRUL]DWLRQE\OLQN DQGFRQWH[WDQDO\VLV6HEDVWLDQL] El enfoque más popular es aplicar técnicas de aprendizaje para inducir esta clasificación automática de documentos. La categorización automática de texto basada en el aprendizaje consta de:,qgh[dflyqghgrfxphqwrv La representación de documentos mediante un modelo de espacio vectorial, /DGLVWDQFLDHQWUHXQSDUGHGRFXPHQWRVHV PHGLGDSRUHOVHQRGHOiQJXORHQWUHORV YHFWRUHVFRUUHVSRQGLHQWHV(VWDPHGLGDGH ODGLVWDQFLDVHXWLOL]DH[WHQVDPHQWHHQHO PRGHORGHHVSDFLRYHFWRULDO'HVHDPRV YLVXDOL]DUORVYHFWRUHVHQR GLPHQVLRQHVTXHSUHVHUYDQODVGLVWDQFLDV UHODWLYDVRODVVHPHMDQ]DVUHODWLYDVHQWUH HOODV [Gerard6DOWRQ3] Para realizar la indexación se utilizan las palabras no vacías de los documentos y las raíces extraídas mediante un porter stremmer. A cada palabra se le asigna un peso tfidf o binario según las veces que aparece en el documento, etc. (QWUHQDPLHQWR Aplicación de algoritmos de aprendizaje automático sobre la clasificación de los documentos (preclasificación)

Hay muchos tipos distintos de algoritmos, C4.5, IB1, Naive Bayes, etc., de los cuales se pueden elegir los que más interesen para llegar al objetivo de la clasificación de los documentos. Son muy interesantes los algoritmos de aprendizaje automático basados en reglas, puesto que éstas son fácilmente comprensibles y manipulables para reutilizar el trabajo hecho más adelante o para mejorarlo. 7pFQLFDV8VDGDVHQ1XHVWUR 7UDEDMR En nuestro trabajo usaremos algunas de las técnicas comentadas anteriormente como son la categorización automática de documentos.,qgh[dflyq Nuestro trabajo comienza pasándole al programa una serie de direcciones URL a las que se conectará y leerá su código fuente, quedándose únicamente con el texto plano de la página. Esto se consigue gracias a un HTML parser que nos devuelve el texto plano de una página Web. A partir de este texto plano indexamos los documentos con pesos tfidf que pasaremos a binario con un filtro clasificador. &ODVLILFDFLyQ La clasificación la haremos a través de un algoritmo PART de aprendizaje automático, que nos dará una serie de reglas que utilizaremos para construir nuestro filtro. [(LEH)UDQN, 4] 3 Funcionamiento del Sistema Para nuestro sistema utilizaremos diferentes herramientas muy útiles para realizar nuestro proyecto. Para empezar utilizaremos un HTML Parser para parsear el texto de las páginas Web que utilicemos para entrenar a nuestro sistema de aprendizaje automático. Este parser hecho en JAVA y creado por Danny John Ayers [5] nos permite eliminar todas las etiquetas del código de las páginas HTML y quedarnos tan solo con el texto plano, para tratarlo y utilizarlo en nuestro proyecto. Utilizaremos también un indexador desarrollado el año pasado (2001) para la asignatura de Inteligencia Artificial en la Universidad Europea de Madrid, con la diferencia de que en este indexador utilizaremos un porter stemmer en castellano desarrollado por Matías Alcojor que utilizaremos para la extracción de raíces de palabras en castellano. Una vez indexados los documentos utilizaremos otro programa de aprendizaje automático llamado WEKA para primero filtrar los pesos de nuestras palabras a pesos binarios y luego para utilizando la clase classifiers.j48.part generar una serie de reglas que utilizaremos para realizar el filtro. Utilizaremos así mismo el filtro para Muffin No Thanks. Este filtro funciona leyendo una serie de expresiones regulares que le indican si debe o no debe dejar pasar la página. Lo que estamos haciendo es un programa que a partir de la lista de reglas generadas por el PART nos genere una serie de expresiones regulares. La forma de configurar el programa es configurando la máquina servidor, o la máquina local, si esta no depende de ningún servidor, con el proxy muffin, al que le pasaremos el filtro no thanks una vez hallamos modificado el archivo de

configuración del filtro con nuestras expresiones regulares derivadas de las reglas obtenidas con nuestro programa de entrenamiento. 4 Arquitectura Ahora pasaremos a describir brevemente la arquitectura de nuestro sistema. 0RGXORGH,QGH[DFLyQ Nuestro programa constará de un módulo de indexación con un conjunto de clases desarrolladas en java y unos scripts. Lo primero que se hará será ejecutar unos scripts con una lista de páginas Web, un script con solo páginas porno y otro con páginas no porno de educación sexual y otras. El programa leerá esas páginas y se quedará con el texto plano de ellas y las guardará en ficheros, dentro del módulo de indexación este se indexará y se clasificarán los documentos como deseables y no deseables. 0RGXORGH(QWUHQDPLHQWR En el módulo de entrenamiento se utilizará un filtro binarizador del WEKA para binarizar la indexación anterior. Acto seguido entrenaremos nuestro sistema de aprendizaje automático con la clase classifiers.j48.part, que nos generará una serie de reglas según las cuales filtraremos o no las páginas. 5HJODV 0RGXORGH&RQYHUVLyQGH Este módulo se encargará de convertir las reglas generadas por el sistema de aprendizaje automático en expresiones regulares inteligibles por el archivo de configuración del filtro No Thanks que reutilizaremos del Muffin. 5HXWLOL]DGRV &ygljr\3urjudpdv Como hemos comentado, nuestra forma de desarrollar el programa es utilizando un Proxy hecho en JAVA llamado Muffin, que acepta filtros también codificados en JAVA, de estos filtros existentes ya para el Muffin, reutilizaremos el filtro No Thanks que se encarga de no dejar pasar las páginas que se indiquen en sus expresiones regulares. Para entrenar el sistema reutilizaremos el sistema de aprendizaje automático WEKA, y utilizaremos el algoritmo del PART [(LEH)UDQN, 4] para generar las reglas que nos sirvan después para filtrar, a través de las expresiones regulares generadas por esas reglas, las páginas. Para el HTML parser utilizaremos un programa que se llama HTML Parser Open Source que hemos encontrado en Internet ['DQQ\-RKQ$\HUV, 5] Utilizaremos un indexador desarrollado el año pasado para construir un buscador en JAVA para la asignatura de Inteligencia Artificial, aunque para que nuestro programa funcione en castellano utilizaremos un porter stemmer realizado por Matías Alcojor. 5 Conclusión En este proyecto se busca una efectividad relativamente alta, y encontrar ideas nuevas para el filtro de páginas no deseadas. Se obviará el tratamiento de imágenes por la dificultad que esto conlleva, pero se intentará sacar el máximo partido de la categorización de textos y del sistema de aprendizaje. Así como de nuevas ideas que se nos puedan ocurrir por el camino.

0HMRUDV\)XWXUR7UDEDMR Necesitamos mejorar la indexación de palabras y generar módulos de indexación para más idiomas. También sería interesante conseguir un módulo de integración más fuerte con el Proxy Muffin para así poder usar algoritmos de aprendizaje más sofisticados que evaluaran las páginas, después de un entrenamiento adecuado, en tiempo real, según le llegan al Proxy, y así conseguir una efectividad de bloqueo más alta y una efectividad de sobre bloqueo, más baja. Esto es, que permita pasar las páginas deseables, pero que no permita pasar las páginas no deseables. Sería también importante generar un instalador para el Muffin con nuestro filtro automáticamente insertado, para hacer nuestro programa más comercial y más fácil de manejar. Quizás también sería interesante buscar algún sistema de seguridad para evitar que se salte la protección de nuestro sistema. Referencias. Intelligence, pages 105--119, Varese, IT, 1999. 1 3. 6DOWRQ, *HUDUG. 1989. $XWRPDWLF 7H[W3URFHVVLQJ. Addison Wesley Longman, Inc. 4. (LEH )UDQN, Data Mining, 3UDFWLFDO 0DFKLQH/HDUQLQJ7RROVDQG 7HFKQLTXHVZLWK-DYD,PSOHPHQWDWLRQV, Morgan Kaufmann Publishers, 2000. (LEH )UDQN, ":(.$0DFKLQH /HDUQLQJ$OJRULWKPVLQ-DYD", University of Waikato, Hamilton, New Zealand. 5. 'DQQ\-RKQ$\HUV http://www.isacat.net/misc/biog.htm http://www.isacat.net/2001/code/ 6. Proxy Muffin World Wide Web Filtering System http://muffin.doit.org/ 7. Internet Content Rating Association http://www.icra.org/ 8. Poesia - Public Open-source Environment for a Safer Internet Access http://europa.eu.int/information_soci ety/programmes/iap/projects/filtering /poesia/index_en.htm http://www.poesiafilter.org/index.shtml 9. WEKA - Machine Learning Project http://www.cs.waikato.ac.nz/ml 1. 1HW3URWHFW proyecto organizado parcialmente por la Comisión Europea para el desarrollo de filtros para el contenido en Internet. http://www.netprotect.org/en/default.htm 2. )DEUL]LR 6HEDVWLDQL. $XWRPDWLF:HE SDJHFDWHJRUL]DWLRQE\OLQNDQG FRQWH[WDQDO\VLV. In Chris Hutchison and Gaetano Lanzarone, editors, Proceedings of THAI 99, European Symposium on Telematics, Hypermedia and Artificial