docu ¿qué?: web semántica

domingo, 29 de marzo de 2009

Los sistemas de búsqueda de respuestas

Se acaba de publicar en el último número de EPI un artículo firmado por Lola Olvera y yo mismo, sobre el tratamiento lingüístico al que se deben de someter las preguntas en los sistemas de búsqueda de respuestas.
Los sistemas de búsqueda de respuestas se caracterizan por no recuperar documentos sino respuestas a preguntas formuladas en lenguaje natural. Para ello es necesario, en primer lugar, transformar la pregunta en una query y luego extraer de los documentos recuperados pasajes relevantes que puedan conformar la respuesta.
En este artículo nos hemos centrado en la primera parte del proceso y se trata de adaptar las etapas de análisis lingüístico (fonética, morfológica, léxica, sintáctica, semántica, discursiva y pragmática) al tratamiento de preguntas en español con el fin de facilitar su clasificación dentro del sistema.
En resumidas cuentas, se trata de clasificar las preguntas por tipos de manera que el sistema sepa qué tipo de respuesta hace falta.
Desde hace ya varios años, las conferencias TREC y CLEF ofrecen foros de discusión para trabajar en esta línea de investigación.
El artículo está disponible en la web de EPI.

miércoles, 4 de junio de 2008

La web semántica y Google

Parece ser que tanta euforia con la Web 2.0 nos está pasando factura ahora, tanta googlemanía está cansando y cada vez la gente se está volviendo más crítica (por no decir criticona), ya uno no está seguro de lo que es bueno o malo y hasta Vinton Cerf (uno de los muchos padres de Internet que existen) reniega de su hijo predilecto y aboga por una nueva forma de hacer las cosas. Google sigue creciendo, pero ya son muchos los que se plantean dar un paso más hacia la Web 4.0 que tantos imaginan.

¿Que cuál es la Web 4.0? La Web semántica, por supuesto. En este contexto las respuestas son muchas pero ninguna firme. No hay un nuevo Google si eso es lo que buscan. RWW nos hace un interesante análisis comparativo entre Google y otros buscadores ordinarios (por llamarlos de algún modo) y los nuevos buscadores semánticos. El problema es realmente paradigmático, es necesario aplicar técnicas de procesamiento del lenguaje natural, algo imposible a día de hoy. Nos enfrentamos a una ingente cantidad de información completamente desestructurada y que hace falta analizar.

Pero sin embargo no todo es tan malo como a priori pudiera parecer, ya existen iniciativas tan interesantes como la de Freebase o pequeñas soluciones a problemas más concretos. En este sentido resulta apasionante el proyecto OpenCalais (llevado a cabo por Thompson Reuters) que analiza casi cualquier tipo de documento aplicándole técnicas de reconocimiento de entidades y extrayendo conocimiento de la información o Feedzz un sitio web de feeds que analiza el post que le indiques, por ejemplo, y le asigna automáticamente las etiquetas dejando así su rasgo social pero consiguiendo uniformidad.

Sin duda no ofrecen soluciones globales pero sí que son comienzos esperanzadores para la recuperación de información.

docu ¿qué?

Menu

domingo, 29 de marzo de 2009

Los sistemas de búsqueda de respuestas

miércoles, 4 de junio de 2008

La web semántica y Google

Blog Archive