Mostrando entradas con la etiqueta recuperación de información. Mostrar todas las entradas
Mostrando entradas con la etiqueta recuperación de información. Mostrar todas las entradas

domingo, 29 de marzo de 2009

Los sistemas de búsqueda de respuestas

Se acaba de publicar en el último número de EPI un artículo firmado por Lola Olvera y yo mismo, sobre el tratamiento lingüístico al que se deben de someter las preguntas en los sistemas de búsqueda de respuestas.
Los sistemas de búsqueda de respuestas se caracterizan por no recuperar documentos sino respuestas a preguntas formuladas en lenguaje natural. Para ello es necesario, en primer lugar, transformar la pregunta en una query y luego extraer de los documentos recuperados pasajes relevantes que puedan conformar la respuesta.
En este artículo nos hemos centrado en la primera parte del proceso y se trata de adaptar las etapas de análisis lingüístico (fonética, morfológica, léxica, sintáctica, semántica, discursiva y pragmática) al tratamiento de preguntas en español con el fin de facilitar su clasificación dentro del sistema.
En resumidas cuentas, se trata de clasificar las preguntas por tipos de manera que el sistema sepa qué tipo de respuesta hace falta.
Desde hace ya varios años, las conferencias TREC y CLEF ofrecen foros de discusión para trabajar en esta línea de investigación.
El artículo está disponible en la web de EPI.

domingo, 23 de noviembre de 2008

Usabilidad, metadatos y electricidad: reflexiones sobre el IV Foro de AAPID

De vuelta del IV Foro de la AAD [pdf] (a partir de ahora AAPID tras el cambio de nombre y la presentación del nuevo logo) y tras dejar que se asienten un poco en la cabeza todas las nuevas ideas que allí se expresaron, aprovecho para reflexionar sobre aquellas cuestiones que más me llamaron la atención.

En primer lugar, las mesas de debate fueron, a mi juicio, de lo más llamativo. Igualmente interesante provocador fue José Ángel Martínez Usero así como ilustrativa fue la ponencia de Eva Méndez (una de las conferencias que más me llamaban la atención). Sin embargo, personalmente me gustaron más, no ya por los ponentes, sino por el formato: intervenciones más o menos breves y un espacio para el diálogo y el debate que le dan algo de sal al asunto. Además, rápidamente se vislumbró un sector de la Administración pública y otro sector crítico con la misma que estuvieron en continuo diálogo y que sirvió aún más para aportar distintas perspectivas acerca de la administración electrónica.

En la primera mesa de debate se habló sobre usabilidad y accesibilidad web. En ella participaron Yusef Hassan Montero, Sergio Ortega y Chesco Martín, que, con fantásticas presentaciones (cada uno a su estilo), destacaron los puntos claves para tener una web usable y accesible, pusieron ejemplos de malas prácticas, señalaron los problemas que entraña e indicaron que para tener una web accesible y usable no basta con cumplir las normas y estándares que hay, sino que también hace falta seguir cierta coherencia y una metodología concienzuda pensando en todo momento en los tipos de usuarios a los que va dirigida la web.

En la mesa de debate de por la tarde, me llamó especialmente la atención la intervención de Joaquín Rodríguez Mateos, del Archivo General de Andalucía, quien hizo una interesante reflexión sobre las consecuencias que tenía el cambio que suponía la administración electrónica en la mentalidad del archivero. Resaltó el problema al que se enfrentaba el archivero que pasaba a custodiar una documentación que no tenía físicamente. Mostró su preocupación puesto que, por falta de previsión, ya ha habido mucha información administrativa que se ha perdido al quedar obsoleto el soporte físico en el se encontraba (las distintas tipologías de disquetes ya desaparecidas) o carecer de alguna máquina capaz de reproducirlos.

Esto me hizo recordar el libro The Big Switch de Nicholas Carr, del que ya hablamos aquí en su momento a partir de su polémico artículo Is Google making us stupid?. En él, Carr hace una interesante analogía entre la información y la electricidad, remontándose a la época de Thomas A. Edison, relata con detalle el cambio de mentalidad que supuso para las empresas pasar de tener sus propias centrales eléctricas a confiarles a empresas externas, el suministro de electricidad, algo vital para su funcionamiento. Según el autor, en la actualidad nos encontramos ante una situación parecida siendo esta vez la información y no la electricidad, el bien preciado. De hecho, desde hace varios años existen ya los denominados data centers y se habla de la computación en nube.

Se trata, al igual que sucedió en el S. XIX, de un cambio de mentalidad y de formas de trabajo, pero no hemos de perder la perspectiva y, aunque hemos de reflexionar y plantearnos los pros y contras que entraña el cambio (tal y como hizo Joaquín Rodríguez), hemos de tener en cuenta que al fin y al cabo la función del archivero es la misma, aunque cambie la metodología. Tal vez no custodie documentos físicos, pero sí que seguirá siendo el encargado de custodiar la información.

sábado, 25 de octubre de 2008

Bendito ruido

Hemos hablado aquí en numerosas ocasiones del problema de la infoxicación en la Web y de la aparición de numerosas herramientas cuyo objetivo principal es filtrar la información para que nos llegue únicamente aquello que consideramos de nuestro interés. Ahora los turnos se han cambiado y con la aparición del RSS, no somos nosotros los que buscan la información, sino que la información es la que acude a nosotros. Esto hace que el tiempo que antes se perdía en la búsqueda, ahora se pierda en la discriminación y selección de aquello que consideramos relevante. Tiempo que cada vez es mayor conforme va creciendo la producción de información. Pero, ¿realmente perdemos el tiempo? ¿Es tan perjudicial el ruido que obtenemos en nuestros agregadores?

Ésta es precisamente la pregunta que se hicieron en RW/W y que ahora vuelven a sacar a relucir un tiempo después con las opiniones que diversos lectores vertieron al respecto. Se trata de un interesante artículo en el que sacan a relucir los beneficios del ruido documental en los agregadores sociales, estableciendo ventajas e inconvenientes e invitando a que los lectores opinen nuevamente sobre el tema.

Estas son las principales ventajas del ruido:

  1. Oportunidades inesperadas. Se refiere al término acuñado como serendipity o hallazgo fortuito. Cuanto más amplio sea el abanico por el que adquieras la información, más probabilidad tendrás de toparte con información muy interesante que tal vez ni siquiera sospechabas necesitar.
  2. Necesidades futuras. Una cosa es que encuentres algo que no sabías que necesitabas, otra cosa es que puedes encontrar cosas que tal vez te sean útiles en el futuro.
  3. Maximización de la recuperación. Sanda Erdelez escribió un interesante artículo en el Bulletin of the American Society for Information Science sobre el acto de "toparse con" la información relevante de manera accidental.
  4. Conocimiento general. Hay que evitar una excesiva especialización, filtrar los resultados hasta el punto de recibir únicamente la información que se espera recibir hace que nuestra visión se delimite ostensiblemente y no seamos capaces de conocer qué más hay más allá de nuestro particular punto de vista.
  5. Crecimiento personal. Leer aquello que no es estrictamente necesario leer tal vez no nos aporte mucho de cara al trabajo que estemos realizando, pero sí que nos invita a la reflexión y a una vida intelectualmente saludable.

miércoles, 4 de junio de 2008

La web semántica y Google

Parece ser que tanta euforia con la Web 2.0 nos está pasando factura ahora, tanta googlemanía está cansando y cada vez la gente se está volviendo más crítica (por no decir criticona), ya uno no está seguro de lo que es bueno o malo y hasta Vinton Cerf (uno de los muchos padres de Internet que existen) reniega de su hijo predilecto y aboga por una nueva forma de hacer las cosas. Google sigue creciendo, pero ya son muchos los que se plantean dar un paso más hacia la Web 4.0 que tantos imaginan.

 

¿Que cuál es la Web 4.0? La Web semántica, por supuesto. En este contexto las respuestas son muchas pero ninguna firme. No hay un nuevo Google si eso es lo que buscan. RWW nos hace un interesante análisis comparativo entre Google y otros buscadores ordinarios (por llamarlos de algún modo) y los nuevos buscadores semánticos. El problema es realmente paradigmático, es necesario aplicar técnicas de procesamiento del lenguaje natural, algo imposible a día de hoy. Nos enfrentamos a una ingente cantidad de información completamente desestructurada y que hace falta analizar.

Pero sin embargo no todo es tan malo como a priori pudiera parecer, ya existen iniciativas tan interesantes como la de Freebase o pequeñas soluciones a problemas más concretos. En este sentido resulta apasionante el proyecto OpenCalais (llevado a cabo por Thompson Reuters) que analiza casi cualquier tipo de documento aplicándole técnicas de reconocimiento de entidades y extrayendo conocimiento de la información o Feedzz un sitio web de feeds que analiza el post que le indiques, por ejemplo, y le asigna automáticamente las etiquetas dejando así su rasgo social pero consiguiendo uniformidad.

Sin duda no ofrecen soluciones globales pero sí que son comienzos esperanzadores para la recuperación de información.