Introducción a las Tecnologías de la Web Semántica

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Introducción a las Tecnologías de la Web Semántica"

Transcripción

1 Introducción a las Tecnologías de la Web Contenido ElcontextodelaWeb Importancia Conceptos básicos Arquitectura MigrandoalaWeb Extracción de información Representación de información Lenguajes y herramientas XMLyRDF SPARQL Caso práctico Generación debdrdf Consulta de información en RDF 2 Cinvestav-Tamaulipas

2 El contexto de la Web Introducción a las Tecnologías de la Web 3 Origen La Web WWW,WorldWideWeb,W3,Web,Internet TimBernes-Lee, 1989(WWW,URIs, HTTP,andHTML) CERN(Conseil Européen pour la Recherche Nucléaire) Sistema de enlaces en el texto, hiperenlaces Enlace texto en el mismo documento Enlace texto en otra página(url, dirección web) HTML(HyperText Markup Language) 4 Cinvestav-Tamaulipas

3 La Web 5 Origen La Web WWW,WorldWideWeb,W3,Web,Internet TimBernes-Lee, 1989(WWW,URIs, HTTP,andHTML) CERN(Conseil Européen pour la Recherche Nucléaire) Sistema de enlaces en el texto, hiperenlaces Enlace texto en el mismo documento Enlace texto en otra página(url, dirección web) HTML(HyperText Markup Language) 6 Cinvestav-Tamaulipas

4 La Web Contenido Web apto para consumo humano Contenidos dinámicos sin la estructura de la información original Uso típico: buscar información buscar y contactar personas revisar catálogos en línea llenar formularios Uso típico: 7 La Web Hipervínculos para conectar recursos documentos, imágenes, audio, video No toda la información indexada Cada día se genera infinidad de páginas web(información) Los motores de búsqueda son la principal herramienta sobre internet Nosereciberespuesta acordeabúsqueda Las páginas importantes y relevantes no se recuperan Los resultados son muy sensibles al vocabulario 8 Cinvestav-Tamaulipas

5 Limitaciones de la Web actual La Web Información ruidosa, imprecisa, poco confiable Información NO procesable por computadoras(sintáctica) Eltamañoseduplicacadadosmeses Búsquedaswebenel25%deltotal Páginas indexables Acceso a bases de datos Sitios con contraseña Intranets Foros Anuncios clasificados Catálogos de bibliotecas Páginas sin enlazar 9 La Web Deseable Información procesable por aplicaciones y humanos Necesidad de información Necesidad de razonamiento Aunque tamaño enorme, pero accesible Orden adecuado de la información Estructura adecuada Búsquedasenel~80%deltotal Mejor organización mejores resultados 10 Cinvestav-Tamaulipas

6 OrganizarlosdatosenlaWeb Web de manera bien definida bien relacionada no sólo para propósitos de despliegue automatización integración reuso 11 Web SGML(Standard Generalized Markup Language) HTML XML(Extensible Markup Language) Finalesde1980 Inicialmente poca aceptación Auto definible Representación de documentos Enformatos: RSS,Atom,SOAP yxhtml Microsoft Office (Office Open XML), OpenOffice, LibreOffice (OpenDocument), iwork(apple) La Web consolida la semántica de los sublenguajes XML Mecanismos para que humanos y aplicaciones se interconecten 12 Cinvestav-Tamaulipas

7 Web 13 La Web HTML 14 Cinvestav-Tamaulipas

8 La Web HTML 15 La Web título autor fecha lugar resumen biografía host 16 Cinvestav-Tamaulipas

9 La Web <title> <speaker> <time> <location> </title> </speaker> </time> </location> <abstract> <biosketch> </abstract> <host> </host> </biosketch> 17 La Web <τιτλε> <σπεακερ> <τιµε> <λοχατιον> </τιτλε> </σπεακερ> </τιµε> </λοχατιον> <αβστραχτ> <βιοσκετχη> </αβστραχτ> <ηοστ> </ηοστ> </βιοσκετχη> 18 Cinvestav-Tamaulipas

10 La Web XML Schema <τιτλε> <σπεακερ> <τιµε> <λοχατιον> <αβστραχτ> <?xml version="1.0" encoding="utf-8"?> <xs:schema xmlns:xs=" <xs:element name="book"> <xs:complextype> <xs:sequence> <xs:element name="title" type="xs:string"/> <xs:element name="author" type="xs:string"/> <xs:element name="character" minoccurs="0" maxoccurs="unbounded"> <xs:complextype> <xs:sequence> <xs:element name="name" type="xs:string"/> <xs:element name="friend-of" type="xs:string" minoccurs="0" maxoccurs="unbounded"/> <xs:element name="since" type="xs:date"/> <xs:element name="qualification" type="xs:string"/> </xs:sequence> </xs:complextype> </xs:element> </xs:sequence> <xs:attribute name="isbn" type="xs:string"/> </xs:complextype> </xs:element> </xs:schema> </τιτλε> </σπεακερ> </τιµε> </λοχατιον> <title> <speaker> <time> <location> <abstract> </title> </speaker> </time> </location> <βιοσκετχη> <ηοστ> </αβστραχτ> </βιοσκετχη> </ηοστ> <biosketch> <host> </abstract> </host> </biosketch> 19 Web Evoluciónde la Web 20 Cinvestav-Tamaulipas

11 Web Propuesta Tim Berners-Lee 21 Codificación XML <rdf:rdf..> <.> <.> </rdf:rdf> Procesable por computadora Web RDF Data Model Tripletas stmt(docinst, rdf_type, Document) stmt(personinst, rdf_type, Person) stmt(inroominst, rdf_type, InRoom) stmt(personinst, holding, docinst) stmt(inroominst, person, personinst) Razonamiento Grafo Legible por Humanos 22 Cinvestav-Tamaulipas

12 Web 23 Web : Capas Capas de la Web 24 Cinvestav-Tamaulipas

13 Web : Capas Capas de la Web 25 Web : Capas Unicode texto URI- Uniform Resource Identifier URL- Uniform Resource Locator URN- Uniform Resource Name es un identificador web, inicia con un esquema: ftp://ftp.is.co.za/rfc/rfc1808.txt gopher://spinaltap.micro.umn.edu/weather/california/los%20angeles mailto:bender@futurama.mx news:comp.infosystems. telnet://melvyl.ucop.edu/ 26 Cinvestav-Tamaulipas

14 Web : XML XML- Extensible Markup Language lenguaje de marcado reglas para representar documentos legible por humanos y computadoras < > <to>micky Mouse</to> <from>donald</from> <body>hey There!</body> </ > 27 Web : RDF RDF- Resource Description Framework RDF XML formato estándar de intercambio Modelado de datos de meta-datos Tripletassujeto-predicado-objeto 28 Cinvestav-Tamaulipas

15 RDF Web : RDF <rdf:rdf xmlns:rdf=" xmlns:dc=" xmlns:foaf=" > <rdf:description rdf:about=""> <dc:creator rdf:parsetype="resource"> <foaf:name>sean B. Palmer</foaf:name> </dc:creator> <dc:title>the Semantic Web: An Introduction</dc:title> </rdf:description> </rdf:rdf> <> < _:x0. this < "The Semantic Web: An Introduction". _:x0 < "Sean B. Palmer". 29 RDF-Schema Web : RDFS Modeloparadefinición detiposdedatoparardf "Fido"esuntipode"Perro", "Perro" es una subclase de"animal" prefijo"rdfs:" :Dog rdf:type rdfs:class :Fido rdf:type :Dog :name rdf:type rdf:property :Fido :name "Fido" :Human rdfs:subclassof :Animal. :Duck rdfs:subclassof :Animal. 30 Cinvestav-Tamaulipas

16 Web : SPARQL SPARQL- SPARQL Protocol and RDF Query Language Lenguaje de consulta para información en formato RDF PREFIX foaf: < SELECT?url FROM <bloggers.rdf> WHERE {?contributor foaf:name "Jon Foobar".?contributor foaf:weblog?url. } 31 Web : Ontologías DAML, DAML+OIL OWL OntologyWebLanguage Familia de lenguajes de representación de conocimiento Para generación de ontologías Tienen una semántica bien definida y serializaciones RDF/XML OWLLite, OWLDL, OWLFull FidoesunPerro ClassAssertion( a:perro a:fido ) Los perros son mascotas ClassAssertion( a:mascota a:perro ) LaIRIfueadicionadaalaontologíaporPepitoPerez AnnotationAssertion( a:addedby a:perro "Pepito Perez" ) PeterespadredeStewie ObjectPropertyAssertion( a:fatherof a:peter a:stewie ) 32 Cinvestav-Tamaulipas

17 Web : Ontologías RIF Rule Interchange Format Representa la capa de reglas, especificaciones Capa de intercambio entre lenguajes de reglas ReglasIF THEN IF married(?x,?y) THEN loves (?x,?y) IF humano(?x) THEN piensa(?x) Dialectos: DTB: Datatypes and Built-Ins Core: subconjunto escencial de reglas FLD: Framework for Logic Dialects BLD: Basic Logic Dialect PRD: Production Rules Dialect 33 Web : Lógica Inferencia y Lógica Derivar nuevo conocimiento a partir del existente Encontrar algo que se desconocía Vigilar verdades que se cumplan para derivar otras Motores de razonamiento: Jena, Pellet, Cyc, KAON, CWM, Drools, FaCT++, Prova, HermiT, etc. Fundamentos de Lógica Clásica Lógica de predicados, Cláusulas Horn Satisfacción de restricciones 34 Cinvestav-Tamaulipas

18 Inferencia y Lógica Web : Lógica 35 Web : Confianza Trust Conocimiento generado/inferido/deducido Conservar el nuevo conocimiento como válido en el contexto Loqueseaválidoenunprincipioqueseconserve Mecanismo de generalización proof checking Sistemas de mantenimiento de la verdad 36 Cinvestav-Tamaulipas

19 Web : Confianza Trust Veracidaddelosdatos Confiabilidad de servidores firmas digitales Certificados web 37 Web contenido web semántico creador después usuarios anotaciones semánticas lenguajes ontologías soporte lógico aplicaciones y servicios contenido web creador antes usuarios 38 Cinvestav-Tamaulipas

20 Web Qué hacer? Desarrollar aplicaciones para la WS Creación y manejo de ontologías Meta-datos Trasladar aplicaciones web actuales a la WS Integración de recursos Etiquetado de recursos Meta-datos 39 Web Enfoques desarrollo de aplicaciones 40 Cinvestav-Tamaulipas

21 Qué hacer? Web Desarrollar aplicaciones para la WS Crear páginas mediante RDF Usar ontologías existentes Dominios, contextos, áreas Tiposdedatos Estructuras definidas Datos bien organización que pueden ser procesados, rastreados, validados 41 Web Qué hacer? Desarrollar aplicaciones para la WS(herramientas) ambientes de desarrollo, editores, CMS sistemas de almacenamiento RDF ambientes de programación(java, python, C, C++, PHP, etc) razonadores generadores RDF validadores motores de búsqueda módulos SPARQL traductores datos ontológicos navegadores etiquetadores y vocabularios RDFy/oOWL Semantic Web 42 Cinvestav-Tamaulipas

22 Web Qué hacer? Trasladar aplicaciones web actuales a la WS Screen Scraping Texto plano--> Publicar información en RDF Tomar datos sin organización semántica XSLT(Extensible Stylesheet Language Transformations) modeloxqueryandxpathdata(rdb) lenguaje funcional/ lenguaje de reconocimiento de patrones en texto Expresiones regulares(perl, Python, java) 43 Web etiquetar vocabulari os ontologías Trasladar aplicaciones 44 Cinvestav-Tamaulipas

23 Proyectos Web DBpedia organización semántica de Wikipedia FOAF vocabulario para definir personas(friend of a friend) Dublin Core términos para describir recursos en línea Freebase basededatosabiertadediversos temas Powerset motor de búsqueda basado en lenguaje natural Hakia motordebúsquedawebsemántico Spock- motor de búsqueda semántico de personas SIOC modelado de espacios web, comunidades GoPubMed motordebúsquedadeconocimiento médico NextBio basededatosetiquetadaciencia delavida 45 DBpedia Web Esfuerzo comunitario para extraer información desde Wikipedia y hacerla accesible en la Web 46 Cinvestav-Tamaulipas

24 Web DBpedia Categorías de Wikipedia Clases YAGO WordNet Synset Links 47 Web DBpedia 48 Cinvestav-Tamaulipas

25 FOAF Web Friend of a Friend (FOAF) es una ontología (diccionario estructurado) simple que describe personas y sus redes sociales Aproximadamente 2,000,000 de archivos RDF FOAF válidos <foaf:person> <foaf:name>speedy Gonzalez</foaf:name> <foaf:title>mr</foaf:title> <foaf:firstname>speedy</foaf:firstname> <foaf:surname>gonzalez</foaf:surname> <foaf:nick>speedy</foaf:nick> <foaf:homepage rdf:resource=" <foaf:weblog rdf:resource=" <foaf:schoolhomepage rdf:resource=" <foaf:workplacehomepage rdf:resource=" <foaf:workinfohomepage rdf:resource=" <!-- etc --> </foaf:person> 49 Web FOAF 50 Cinvestav-Tamaulipas

26 Web Basics Agent Person name nick title homepage mbox mbox_sha1sum img depiction (depicts) surname family_name givenname firstname FOAF Personal Info weblog knows interest currentproject pastproject plan based_near workplacehomepage workinfohomepage schoolhomepage topic_interest publications geekcode myersbriggs dnachecksum Documents & Images Document Image PersonalProfileDocument topic (page) primarytopic tipjar sha1 made(maker) thumbnail logo Projects & Groups Project Organization Group member membershipclass fundedby theme Online Accts OnlineAccount OnlineChatAccount OnlineEcommerceAccount OnlineGamingAccount holdsaccount accountservicehomepage accountname icqchatid msnchatid aimchatid jabberid yahoochatid 51 Dublin Core Web Conjunto de términos para describir recursos con propósito de descubrimiento. Con los términos se pueden describir: páginas web, imágenes, video, archivos, documentos, libros, etc. Cumple IETF RFC 5013(Internet Engineering Task Force) ISO Standard (International Organization for Standardization) NISO Standard Z39.85(National Information Standards Organization) Dublin Core Metadata Initiative desarrollo de estándares para intercambio de metadatos en línea 52 Cinvestav-Tamaulipas

27 Web Dublin Core 53 Dublin Core: propiedades Web ❿ Title ❿ Creator ❿ Subject ❿ Description ❿ Publisher ❿ Contributor ❿ Date ❿ Type ❿ Format ❿ Identifier ❿ Source ❿ Language ❿ Relation ❿ Coverage ❿ Rights 54 Cinvestav-Tamaulipas

28 Web Retos 1. Disponibilidad de contenidos 2. Disponibilidad de ontologías, desarrollo y evolución 3. Escalabilidad de los contenidos de la WS existentes 4. Diversidad lingüística 5. Vizualización 6. Estandarización de lenguajes de la WS 55 Cinvestav-Tamaulipas