LoginRSS 2.0 Feed

viernes, 02 de mayo de 2008

La visión de la Web semántica de Tim Berners-Lee [BernersLee01] permite un mayor grado de expresividad en las páginas, ya que en las páginas Web no solo se codifican datos (palabras), si no que también se introduce conocimiento (conceptos y reglas de inferencia). Este conocimiento adicional proporciona información extra que seguramente no sea útil al que navega por la página, pero si que resulta muy útil para que las máquinas sean capaces de extraer conocimiento de una forma más simple y estandarizada y, por tanto mejorar los resultados de las búsquedas en la web.


El rápido crecimiento del número de páginas Web ha ido forzando las necesidades en cuánto a herramientas y tecnologías que permitan un acceso más cómodo y eficiente a las mismas.  En un principio, la única forma de navegar por la Web era conocer de antemano las direcciones (URLs) de las páginas a consultar, lo cuál limitaba en gran medida la capacidad de recuperar información relevante, así como condicionaba el acceso a nuevos contenidos. Posteriormente surgieron los directorios dónde se categorizaban las páginas de forma manual en una taxonomía de temas de interés y, finalmente, surgieron los buscadores como Lycos y AltaVista que descubrían automáticamente las nuevas páginas Web y las añadían a su base de datos indexándolas para  permitir recuperarlas al buscar ciertos términos.

La visión de la Web semántica de Tim Berners-Lee [BernersLee01] permite un mayor grado de expresividad en las páginas, ya que en las páginas Web no solo se codifican datos (palabras), si no que también se introduce conocimiento (conceptos y reglas de inferencia). Este conocimiento adicional proporciona información extra que seguramente no sea útil al que navega por la página, pero si que resulta muy útil para que las máquinas sean capaces de extraer conocimiento de una forma más simple y estandarizada. A este respecto, sirva el ejemplo de una página Web de un trabajador de una empresa, dónde se incluye su información de contacto. Para un humano resulta muy simple extraer la información de contacto, ya que asocia patrones de texto (una dirección junto a un teléfono y un mail, por ejemplo) y es capaz de extrapolar del mundo de los datos al mundo de los conceptos. Sin embargo para automatizar el proceso de forma que un programa pueda extraer esta información, se necesita un software muy elaborado, ya que hay que saber identificar patrones de direcciones, teléfonos, correos, así como reconocer de todas las posibles direcciones que aparezcan en una web, cuál es la referente al contacto. Ahora bien, para facilitar la comprensión de estos datos, se puede etiquetar la web con conocimiento acerca de la información que existe en la misma, por ejemplo que estamos hablando de una persona, cuyo nombre es “Fulanito”, su dirección de correo electrónico es “fulatino@miempresa.com” y su dirección postal es “C/Perdida, 32 (Madrid)”.


Semantic Representation


La Web Semántica se puede definir como un marco que permite publicar, compartir y reutilizar datos y conocimiento tanto en la red como a través de aplicaciones [Ding05]. Dentro de este marco, se encuentran

  1. XML, que provee una sintaxis elemental para estructura el contenido dentro de los documentos, pero sin asociar ningún tipo de semántica al mismo.
  2. RDF, un lenguaje que permite expresar modelos de datos, tanto las descripciones de los objetos (recursos) como las relaciones entre los mismos. Los modelos basados en RDF se pueden representar en sintaxis XML.
  3. OWL, que añade más vocabulario para describir propiedades y clases como las relaciones entre clases (por ejemplo que sean disjuntas), cardinalidad (por ejemplo que sean exactamente 3), igualdad, características de las propiedades (por ejemplo simetría) y clases enumeradas.
  4. SPARQL, un protocolo y lenguaje de consultas para recursos de la Web semántica.
  5. Ontologías, que definen conceptos y relaciones entre los mismos, como FoaF (Friend of a Friend) [Foaf07], que es una ontología basada en RDF que permite modelar la información de personas y las relaciones entre las mismas.

Conociendo estas herramientas, ya podemos modelar la información de contacto del ejemplo anterior. La Figura 4.1 muestra un diagrama que muestra de una forma visual las relaciones entre los distintos conceptos que forman parte de esta información.

Con todo esto, ya se pueden generar documentos anotados semánticamente pero, ¿cómo afecta esto a la búsqueda de documentos? El funcionamiento en los buscadores convencionales comienza con la introducción de una serie de palabras clave a buscar, sin embargo, un buscador para la Web semántica debe aprovechar la información conceptual para sacar mayor partido de la consulta, lo cuál implica una mayor precisión a la hora de realizar las consultas. Siguiendo el ejemplo anterior, si se quiere conocer la dirección de contacto de una persona que se llama Fulanito, se tendrá que indicar que vamos a buscar un campo conceptualmente etiquetado como dirección de contacto asociado a un individuo cuyo nombre es “Fulanito”.

Puede parecer intrincado el tener que desarrollar consultas tan elaboradas, sin embargo, conviene resaltar que la Web Semántica está orientada a la comunicación entre máquinas [BaezaYates07a]. La Web Semántica promueve la creación de Agentes, software autónomo y seudo-inteligente capaz de procesar la información proveniente de diversas fuentes, mezclarla e intercambiar los resultados con otros programas. Imagínese que tiene una cita con Fulanito dentro de 4 horas, que está correctamente anotada en su agenda electrónica, pero no tiene la dirección de contacto. Cuándo le pida a su agenda electrónica ver a dónde se tiene que dirigir, será el agente inteligente programado en la misma la que se encargará de realizar esta intrincada consulta mostrando, posteriormente, los resultados (por ejemplo un callejero dónde se señala la dirección a la que tiene que acudir), de forma totalmente transparente al usuario, y sin que este tenga que aprender a utilizar ninguno de los lenguajes que están dentro del marco de la Web Semántica.

Desde un punto de vista práctico, los grandes de la búsqueda, Google y Yahoo, ya llevan tiempo trabajando en este campo. Dentro de los proyectos y tendencias, resalta el "Intent Driven Search" (búsqueda basada en intenciones) de Yahoo, con su proyecto clave MindSet. MindSet es capaz de discernir entre varios conceptos a partir de las palabras clave introducidas por el usuario, y ajustar los resultados de la búsqueda en función de la intención final de la búsqueda del usuario. Así pues, el usuario dispone de una barra dónde modula el interés por cada uno de los conceptos que le ofrece la herramienta y el sistema reajusta los resultados en función de las intenciones.


REFERENCIAS:

  • [BaezaYates07a] Baeza-Yates, R., Boldi, P., Gómez Hidalgo, J.M. Presentación: buscando en la Web del futuro. Novática (Revista de la Asociación de Técnicos de Informática), número 185, enero.febrero 2007, año XXXIII, páginas 3--4.
  • [BernersLee01] Berners-Lee, T., Hendler, J., Lassila, O., “The Semantic Web” Scientific American 284 (5), 35-43, 2001.
  • [Ding05] Ding, L., Finin, T., Joshi, A., Peng, Y., Pan, R., Reddivari, P., 2005. “Search on the Semantic Web”, Technical Report TR CS-05-09, Department of Computer Science and Electrical Engineering, University of Maryland, Baltimore.
  • [Foaf07] FOAF, 2007. The Friend of a Friend (FOAF) Project. Sitio Web accesible en: http://www.foaf-project.org/. [Último acceso: 04/07/2007].

[José Carlos Cortizo Pérez]

15:08 | gestionado por Grupo de Sistemas Inteligentes - UEM | Enviar comentario (0)