Concepto
Los metabuscadores ofrecen detalles de las respuestas de cada uno de los servicios, o bien el listado completo de coincidencias que constituyen (al menos en teoría) las mejores respuestas a la pregunta formulada. Generalmente no se obtiene toda la potencia de cada uno de ellos (dado que los formatos de consulta varían) pero pueden ser útiles cuando no se han tenido suerte en la búsqueda en otros servicios, para buscar por una materia poco común, o para realizar búsquedas exhaustivas. ࠼/font>
- MetaCrawler
El paradigma de estos sistemas de búsqueda sería Metacrawler , que busca en 14 buscadores distintos: AltaVista, DirectHit, Excite, FindWhat, Google, GoTo.com, Infoseek, Kanoodle, LookSmart, Lycos, RealNames, Sprinks, Thunderstone y WebCrawler. Metacrawler puede buscar en páginas Web, News, etc. Metacrawler es uno de los más destacados servicios de metabúsqueda de la WWW. Cuando se plantea una búsqueda, la envía a estos buscadores, reúne los resultados, elimina duplicados, hace un control de la relevancia y ofrece una lista exhaustiva de recursos. Como la mayoría de los sistemas de búsqueda de este tipo, tiene dos formas de interrogació o usos posibles:
Sencillo: se formulan las búsquedas desde una única ventana. El usuario puede decidir, al incluir los términos, si en las páginas encontradas deben aparecer todos los términos (all), al menos alguno de ellos (any), o toda una frase (phrase), así como la parte de la Web en la que realiza la búsqueda (toda la Web o solo el idioma usado por el usuario), además del tipo de recurso buscado (páginas Web, ficheros de sonido, imágenes婮 Los resultados los presenta listados, por defecto, por relevancia (calculando cual se ajusta más a la búsqueda), aunque también permite ordenarlos por sitio web al que pertenecen (site) o por buscador en el que se encontraron (source)
Avanzado (power search): Además de las opciones anteriores, permite seleccionar otros parámetros: los buscadores sobre los que realizará la consulta, el dominio al que pertenecen los sitios encontrados, el tiempo que dedicará a hacer la consulta (si se elige "rápido", dedicará menos tiempo a hacer la búsqueda), el número máximo de resultados obtenidos堼/font>
Además, en Tools and Tips, ofrece otras opciones de búsqueda como:
La búsqueda a través de directorio (Metacrawler Open Directory que no es más que la versión de MetaCrawler de ODP
La posibilidad de ver otras preguntas que están planteando otros usuarios: MetaSpy
Una versión reducida del metabuscador: Minicrawler que se activa en el escritorio del usuario como un pequeño "agente de búsqueda" que puede asistir al usuario en cualquier momento
Cabe acotar los siguientes datos:
Internet invisible Se refiere a recursos que existen en la red, pero que no están totalmente integrados en el espacio Internet, lo que quiere decir que no pueden ser recuperadas por los buscadores, y por lo tanto, son de difícil localización. Por ejemplo, en Internet existe mucha información útil que sólo aparece si buscamos en bases de datos accesibles a través de ésta. Es lo que se conoce como "web invisible".
Estas bases de datos, que no pueden ser indizadas por los motores de búsqueda, están mantenidas normalmente por instituciones académicas o gubernamentales e incluyen información de referencia y sobre todo artículos de revistas. Muchas de estas bases de datos son de acceso gratuito.
Por ejemplo:
– METABASE: conjunto de registros bibliográficos de múltiples centros de información
– Catálogo de procedimientos administrativos (Portal del Ciudadano)
Existen buscadores que facilitan la búsqueda en la Internet invisible, como por ejemplo:
– http://www.invisibleweb.com/ para recursos internacionales
– http://www.internetinvisible.com para recursos españoles y también extranjeros
– Portal Documental Documentate
http://www.documentate.com
Portales ࠼/b>
Lugar de acceso a un amplio abanico de fuentes y servicios existentes en Internet sobre un tema, producto, etc., de forma coherente y homogénea. Suele girar en torno a un buscador o un índice, pero añade y organiza el acceso a otros recursos complementarios de interés: foros, chats, noticias, etc.
unque hay portales de búsquedas generales, la tendencia es ofrecer al usuario portales especializados.
Son pequeños programas informáticos instalados en el ordenador que facilitan las tareas de rastrear, localizar y recuperar la información, de acuerdo a un perfil previamente diseñado por el usuario. EJEMPLO: Copérnico
Weblogs
Un weblog, también llamado blog o cuaderno de bitácora, es un espacio personal de escritura en Internet. Puede asemejarse a lo que es un diario on-line, una página web que una persona o administrador (weblogger) provee constantemente y de forma cronológica de contenidos muy específicos. El weblogger es el administrador de todo su sitio, coordina, borra notas escritas y en cierta manera modera las discusiones que en cada noticia se comenta.
En los weblogs, se cuentan experiencias íntimas, se comparten noticias, se expresan opiniones, etc., sobre un tema específico.
Los weblogs suelen tener un diseño muy sencillo ya que dan prioridad al contenido. En la mayoría de los casos, este versa sobre noticias cortas, que son actualizadas de forma frecuente y que contienen links a otras páginas. Los weblogs también pueden incluir material gráfico.
Existen medio millón de weblogs, sólo diez mil están dedicados a noticias y el resto cuatrocientos noventa mil son páginas personales.
Ejemplo: Weblog Ciencias de la Información
Modelos de recuperación de la información
Bajo el término modelos de recuperación se engloban todas aquellas técnicas que tienen por objetivo facilitar el proceso de comparación entre una consulta determinada y un conjunto de textos sobre los que se realiza la consulta. Se trata de herramientas muy utilizadas dentro del campo de la recuperación y organización de la información.
Hoy en día, los buscadores son las herramientas más utilizadas en el ámbito de Internet para acceder de forma rápida a la información sobre un determinado tema. Por ello, parece conveniente conocer cuáles son los principales modelos de recuperación utilizados por los buscadores para permitir el acceso a la información de una consulta.
Presentaremos cuatro tipos de modelos de recuperación clásicos:
Modelo booleano: Se basa en un criterio de decisión binario (pertinente o no pertinente) para saber si un documento tiene relación con una pregunta.
Modelo vectorial: Trabaja asignando pesos no binarios a los términos índice de las preguntas y de los documentos. Estos pesos se utilizan para comprobar el grado de similitud entre un documento guardado en el sistema y la pregunta realizada por el usuario.
Modelo probabilístico: Se basa en el cálculo de la probabilidad de que un documento se corresponda con un pregunta.
Modelo Relevance Feedback: Modelo que trata de refinar las búsquedas a partir de los términos más relevantes en búsquedas anteriores. [3]
Estos modelos de recuperación están pensados únicamente para documentos de contenido textual.
2.5 TÉCNICAS Y MÉTODOS DE LA RECUPERACIÓN DE INFORMACIÓN EN INTERNET
2.5.1 TÉCNICAS:
Los fundamentos que debemos tener para elaborar una técnica exitosa de recuperación de información en Internet son:
1. El conocimiento de las características propias de los documentos existentes en Internet
2. La teoría de la recuperación de la información
Las aproximaciones a la Recuperación de la Información en Internet pueden establecerse según la creación de recursos, o según la herramienta utilizada. Ambos enfoques, al igual que en casos anteriores no son excluyentes.
Según la creación del recurso:
La creación de listados, índices y catálogos ordenados por áreas o materias, de forma que el usuario dispusiese de un conjunto de fuentes seleccionadas en las que empezar a buscar. El ejemplo mas conocido es el norteamericano Yahoo!. Han ido añadiendo motores internos a sus prestaciones de forma que permiten consultar mediante ecuaciones sus bases de datos.
La creación automática de bases de datos basadas en índices o ficheros inversos, mediante unas aplicaciones que rastrean o exploran todo el ámbito Web, llamados robots, spiders o wanderers. Estos robots rastrean el Web a la búsqueda de documentos, obtienen una copia, la indizan, y usan los enlaces presentes en los mismos para localizar nuevos documentos
Según la herramienta utilizada:
Directa:
El navegador se conecta al servidor Web que actúa como interfaz del motor de búsqueda correspondiente a la base de datos que desea consultar. El servidor le envía una página Web que actúa como interfaz de interrogación, a través de la cual formula la consulta. El servidor la recibe, procesa y envía como respuesta una nueva página Web, generada de forma dinámica, que contiene las respuestas más pertinentes a la ecuación formulada por el usuario
Por intermediario:
El navegador se conecta a un servidor Web que le ofrece una interfaz de interrogación propia. Esta interfaz le permite interrogar una base de datos correspondiente a un motor de búsqueda situado en un servidor Web diferente al que ofrece la interfaz. La interfaz actúa como intermediario entre el motor de búsqueda de destino y el usuario. El interés de estos intermediarios (meta buscadores) se da cuando consultan a múltiples motores de búsqueda.
Por agente:
El usuario instala en su computador una aplicación que permite formular las ecuaciones de búsqueda y remitirlas a uno o varios motores de búsqueda. La aplicación lanza conexiones simultáneas al conjunto de motores que se trate, recibe las respuestas, y las entrega al usuario en una presentación única que puede ofrecer diferentes formas. Finalmente y dependiendo de las prestaciones del agente, las respuestas pueden ser filtradas, aplicando criterios propios de eliminación de duplicados, reordenación de resultados, etc.
Por robot personal:
Se trata de aplicaciones que se instalan en el computador del usuario, y que son capaces de acceder a un servidor Web, construir un mapa de índices de sus contenidos, y utilizar los mismos para acceder a la información que sea interesante para el usuario, obteniendo copias de las páginas o documentos Web contenidos en el mismo.
MÉTODOS:
Los procesos de indización y recuperación llevados a cabo por las diferentes herramientas de Recuperación de Información y localización de recursos disponibles en la Web, pueden contemplarse desde diferentes ángulos (Ellis, 1998):
Representación de los datos: Las herramientas de búsqueda utilizan distintos métodos para indizar los recursos que incorporan a sus bases de datos. La indización puede plantearse en tres niveles: submorfológico, por palabra clave y por conceptos. La indización en el nivel submorfológico, esto es, sin análisis morfológico, sintáctico o semántico, ofrece un método muy flexible para la recuperación. Así las fuentes de información se indizan como patrones de bits o bit patterns de manera que texto, sonido e imágenes en movimiento, pueden indizarse y recuperarse usando la misma forma de representación. Algunas herramientas de consulta comienzan a incorporar sistemas como, por ejemplo, Excalibur Visual RetrievalWare, que ofrecen recuperación de imágenes y de texto. Sin embargo, la indización por palabra clave o por conceptos es la que se utiliza principalmente para la representación e indización de la información. Estos métodos se desarrollan gracias a la aplicación de técnicas estadísticas de RI ahora incorporadas a una amplia gama de buscadores (Barlow, 1997):
Indización por palabra clave: Mediante este sistema se crean índices inversos de raíces y palabras clave, direcciones, ubicación y frecuencia de apariciones. Este enfoque, esencialmente morfológico y estadístico, basa la RI en la similitud formal de las palabras, y las estadísticas de su presencia en documentos y colecciones de documentos. Es la forma más común de indización de textos en la W3. Algunos buscadores obtienen las palabras clave de determinados campos, las metaetiquetas HTML, pero la mayoría indiza el texto completo de las páginas, incluyendo o no las palabras vacías de significado y eliminando a veces las más frecuentes.
Indización por conceptos. Existen varios procedimientos para construir bases de datos basadas en conceptos, algunas de ellas muy complejas y basadas en sofisticadas teorías lingüísticas y de inteligencia artificial. En otros casos, como Excite, se basan en una aproximación numérica, calculando la frecuencia de aparición de ciertas palabras significativas. A partir de análisis estadísticos el buscador determina qué conceptos aparecen juntos o relacionados en textos que se centran en un tema concreto. Mediante este sistema se pueden recuperar recursos que tratan un tema dado, incluso aunque las palabras incluidas en el documento no coincidan formalmente con las de la pregunta.
Otros sistemas, como Dr-Link, realizan un análisis más profundo e indizan a nivel sintáctico, semántico e incluso pragmático. Sin embargo, el mayor nivel de análisis semántico, posiblemente sea el de los sistemas que ofrecen información evaluada, revisada e indizada por humanos, que se presenta en algunos directorios temáticos, como por ejemplo en Excite e Infoseek.
Procesos de equiparación (matching processes)
Los servicios de búsqueda en la W3 han incorporado técnicas de recuperación avanzadas para intentar superar los problemas del sistema clásico de recuperación basado en el método de la lógica booleana, muchas de cuyas prestaciones se consideran demasiado complejas para el usuario medio. Por esta razón, la mayor parte de estas herramientas de consulta han incorporado la posibilidad de plantear preguntas en 묥nguaje natural묠la ordenación de los resultados según su relevancia, la ponderación de los términos de la consulta dependiendo de los intereses del usuario, la búsqueda mediante ejemplos y la ayuda en la formulación de las preguntas (Croft, 1995). Aunque la aplicación de estas técnicas avanzadas en el entorno de la W3 no es uniforme ni se ciñe a un único modelo preestablecido, todas las herramientas de búsqueda hacen uso de métodos de equiparación parcial o partial match. Es decir, cualquiera que sea el modelo formal teórico -probabilístico, de espacio vectorial o de conjuntos difusos- en estos buscadores, lo que los caracteriza es que permiten una comparación perfectamente matizada y no una igualación exacta entre los términos de la búsqueda y los de los documentos (Belkin y Croft, 1987). De esta manera, la equiparación se convierte en un problema matemático consistente en establecer el grado de similitud entre la representación numérica de los términos de la búsqueda planteada por los usuarios y la de los términos incluidos en la base de datos. No obstante, Frakes y Baeza (1992) señalan que la taxonomía anterior -modelo probabilístico, de espacio vectorial o de conjuntos difusos- es inexacta, dado que un sistema puede integrar características de más de una de las categorías expuestas.
Uno de los métodos utilizados para mejorar la recuperación es la búsqueda automática por conceptos o conceptual retrieval (Haverkamp y Gauch, 1998), una forma de expansión automática de las búsquedas ( query expansion ) utilizada por herramientas como Excite y Magellan, que supone una alternativa a la coincidencia exacta de los términos pregunta-documento. Otro de los métodos para mejorar los resultados consiste en utilizar un 봥sauro렰ara que el usuario pueda refinar las búsquedas mediante la adición o eliminación de palabras clave de la ecuación de búsqueda. Altavista y Excite, por ejemplo, presentan esta opción donde, en respuesta a una consulta planteada, se muestran términos relacionados con los de la pregunta y se pide al usuario que indique si desea incluirlos o excluirlos para reformular su consulta más acertadamente. Hay que señalar que, a pesar de que los buscadores se refieran a esta prestación como tesauro, realmente no se trata de un lenguaje documental normalizado sino de una serie de términos que el buscador ha identificado como próximos o relacionados con los de la ecuación de búsqueda. La generación automática de tesauros que establezcan relaciones rigurosas entre los conceptos ha propiciado una interesante línea de investigación (Chen, 1998). Otra posibilidad de extensión de las búsquedas es el truncamiento implícito ( stemming ) o reducción automática de los términos de búsqueda a su raíz, basado en la premisa de que los términos similares morfológicamente lo son también semánticamente. Sin embargo, si esta prestación no se aplica adecuadamente, puede dar lugar a un elevado ruido documental. Por otro lado, la asignación automática o humana de descriptores, en forma de términos, categorías temáticas o símbolos de clasificación, representa una opción más a la equiparación exacta de palabras. Muchos son los directorios en la W3, como Yahoo, que siguen este método ofreciendo acceso a documentos web a partir de listas alfabéticas precoordinadas de encabezamientos de materias. Sin embargo, y ante el uso generalizado de técnicas avanzadas de recuperación, en ocasiones se añora la capacidad de búsqueda mediante coincidencia exacta o exact match entre el enunciado de búsqueda y palabras o expresiones contenidas en el documento, puesto que, quizá, sea eso precisamente lo que, en muchos casos, pueda satisfacer las necesidades de los usuarios (Hahn, 1998). Belkin (1995) señala, por el contrario, que en determinadas circunstancias y pese a todos los defectos de las búsquedas booleanas, éstas pueden ser tan aconsejables como la búsqueda best-match, aunque admite que lo más adecuado sería una combinación de ambas, ya que hay estudios que demuestran que el uso de diferentes tipos de representación de las preguntas incrementa la efectividad de la recuperación.
Capacidad de aprendizaje:
Los robots que rastrean la red pertenecen a un tipo de programas informáticos denominados agentes, es decir, son aplicaciones que pueden trabajar de forma autónoma y realizar actividades sin la supervisión directa de los humanos, de ahí que se les atribuya un cierto grado de 멮teligencia력 멮dependencia력n el desarrollo de ciertas tareas. Algunos sistemas, sobre todo agentes de búsqueda personalizada, emplean el feedback de relevancia para mejorar su funcionamiento a través del tiempo. Partiendo de la relevancia determinada por los usuarios para los documentos recuperados en una primera búsqueda, el sistema pondera las palabras clave. Otras herramientas, como Direct Hit, utilizan la interacción con el usuario como medio para mejorar la relevancia. Este buscador trabaja 믢servando령 벥gistrando력l comportamiento de los usuarios en la realización de las búsquedas, de esta forma 롰rende령 es capaz de ofrecer, cuando se le solicita, una lista donde las páginas se ordenan según su popularidad para los internautas. Direct Hit comprueba si anteriormente ya se ha hecho esa misma pregunta u otra parecida en el buscador y ordena los resultados según el número de usuarios que han preferido esas referencias, y las han consultado, de entre todos los resultados. Metabusca es otro de los sistemas que también sigue este método. En los últimos años se vienen adoptando varios paradigmas de aprendizaje automático para la recuperación de información y el análisis textual como, las redes neuronales, el aprendizaje simbólico y los algoritmos genéticos. Una forma de aprendizaje automático que no requiere feedback de usuario es la representada por el método de 붩da artificial렡plicado a la recuperación donde agentes con capacidad de aprendizaje dependen para su supervivencia de la RI que realicen en respuesta a las consultas. Los agentes de búsqueda examinan intranets e Internet procesando información, emplean técnicas de aprendizaje automático y adaptan dinámicamente su reproducción y actividad usando técnicas de vida artificial, en un intento de optimizar su funcionamiento (Haverkamp y Gauch, 1998).
Sintaxis de la consulta ( input )
Dadas las ventajas que presentan para los internautas tanto los directorios temáticos, con índices navegables y organizados de recursos, como los buscadores, con grandes bases de datos e interesantes prestaciones de búsqueda, la tendencia actual se dirige a incorporar ambas posibilidades dentro de un mismo servicio. De esta forma, el browsing y la búsqueda basada en términos van hoy juntos y son la forma predominante de RI en Internet. La mayor parte de los buscadores permiten formulaciones booleanas donde el usuario cuenta con un gran nivel de control lingüístico. También suelen permitir la búsqueda en lenguaje natural, lo que libera al usuario de tener que ejercer ese estrecho control. La búsqueda mediante ejemplos o query by example invita, además, a identificar documentos relevantes sobre los que basarse para mejorar la recuperación como la opción 뭦aacute;s como éste력n Excite, aunque no siempre los criterios utilizados se hacen explícitos para los usuarios.
Coordinación de las búsquedas:
La precoordinación es inherente a muchos de los servicios basados en directorios organizados mediante listados de materias o clasificaciones bibliotecarias, aunque esto último, con menor frecuencia. Muchos buscadores que efectúan las consultas mediante palabras clave ejecutan búsquedas postcoordinadas. Sin embargo, como se ha indicado, la mayor parte de estos sistemas ofrecen una combinación de pre y postcoordinación.
CAPÍTULO 3:
Evaluación de la recuperación de información en Internet
La World Wide Web, creada hace una década por Tim Berners-Lee y Paul F. Kunz ha sido motivo de revolución en el ámbito de la información, diseñada para permitir un intercambio ilimitado de información, ha registrando un crecimiento acelerado, desprovisto de regulación y estándares de control de calidad; motivo por el cual la producción informativa que alberga necesita de una serie de mecanismos de clasificación, localización y evaluación, para lo cual valiéndose de sistemas de búsqueda y recuperación de información, se intenta que mediante estrategias de búsqueda mas o menos complicadas se puedan satisfacer necesidades de información.
Las respuestas que el sistema nos brinda, han de ser evaluadas para conocer si el sistema responde acorde a las necesidades del perfil del usuario o comunidad que lo consulta, así como también si posee la mayor proporción de documentos de la Web.
En los últimos años, y debido a la importancia que tiene Internet en la búsqueda y recuperación de documentos se están creando medidas específicas y parámetros para evaluar estas recuperaciones como son la amigabilidad de los interfaces, la velocidad de la respuesta, los formatos de presentación, las conexiones con otros documentos, etc.
Hasta el momento los estudios relacionados a la recuperación de información ofrecen resultados dispares y dispersos. La disparidad proviene de obtener resultados distintos en la mayor parte de los estudios, aunque siempre se pueden encontrar algunas conclusiones comunes en ellos, debido a que existen diferencias en el método, herramientas y alcance de los estudios. Según Martínez Méndez: "La dispersión surge cuando el conjunto de motores evaluados no es el mismo, cuando los estudios no suelen repetirse con el tiempo, por lo que no pueden percibir la evolución de la tecnología"[4]
3.1 Elementos de la Evaluación de la Recuperación de Información en Internet
Un sistema de información se encuentra conformado por un conjunto de documentos y un determinado proceso de recuperación, para la evaluación de la eficacia del sistema en una determinada consulta se necesita comparar los documentos que el sistema arroja con los documentos que el sistema cuenta sobre el tema consultado y son relevantes.
La eficacia del sistema se desprenderá de la eficacia de los resultados de las distintas preguntas de los usuarios.
Los elementos que se requieren para la evaluación de un Sistema de Recuperación de Información, son.
Un conjunto de documentos a encontrarse en los motores de búsqueda, directorios, metabuscadores, FFA, Bases de datos, etc. debidamente indexados según el sistema bajo el cual se encuentran.
Un conjunto predefinido de preguntas que representarán las necesidades de información de los usuarios, y se representarán en el sistema mediante ecuaciones de búsqueda con la sintaxis que se considere adecuada, según las características del buscador.
Un conjunto de documentos relevantes, necesarios para las medidas y los parámetros de eficacia, que respondan a las preguntas correspondientes.
3.2 La Relevancia en los Sistemas de Recuperación de la Información en Internet
El concepto de relevancia aplicado a la recuperación de la información apareció entre la década del 30 y el 40.
"La relevancia es la relación que existe entre una necesidad de información manifiesta y la información almacenada". [5]
Según Dolores Olvero "Se considera ítem relevante a todo aquel que versa sobre el tema de la pregunta, es decir, que responde a las necesidades de información tal y como habían sido expresadas por los usuarios." [6]
La mayoría de los buscadores de la WWW, ordenan los resultados en función de su relevancia respecto a la pregunta planteada, es decir realizan un "ranking de relevancia", ordenando la lista de resultados de manera que las páginas más adecuadas a la pregunta aparezcan en primer lugar, aunque esto no quiere decir que los resultados mostrados en la primera página cumplan con los criterios establecidos para satisfacer la necesidad informativa, puede ocurrir que los de la última página sean los más pertinentes para el usuario.
Para evaluar la relevancia de los documentos que el sistema nos brinda, se tiene dos perspectivas, el punto de vista del usuario (relevancia subjetiva) y el algorítmico (relevancia objetiva), éstos no necesariamente son excluyentes entre sí, pues se complementan para intentar conocer la relevancia.
3.2.1 Relevancia Subjetiva
Cuando el usuario interactúa con el sistema de información, desea que éste le proporciones los documentos adecuados a su consulta específica, el usuario sabe lo que quiere encontrar y espera lo mismo del sistema. De las respuestas que el sistema le envíe, según el ranking, aplicará los criterios de relevancia según sus expectativas, y así poder seleccionar los adecuados a su necesidad informativa.
3.2.2 Relevancia Objetiva
Según Gómez Raquel "hace hincapié en los sistemas, normalmente define cómo la materia de la información recuperada coincide con la de la pregunta." [7]
Analiza el mecanismo de recuperación del sistema, osea el algoritmo. El sistema calcula esta relevancia de varias formas, entre ellas: el número de veces que aparecen los términos de la consulta en el documento, la fuente del documento, la fecha de publicación, el idioma, hasta asignarle pesos a los términos, utilizando metadatos.
3.2.3 Evaluación de la relevancia
Según Olvero Dolores[8]para evaluar la relevancia se utiliza una escala de criterios y clasificaciones, son los siguientes:
Enlaces duplicados, inactivos e irrelevantes: Los enlaces duplicados tienen el mismo URL de las respuestas arrojadas por el sistema consultado anteriormente, los inactivos aparecen cuando el servidor se ha contactado pero no se utiliza pero no se localiza el documento, el servidor no responde, o cuando aparecen mensajes que redireccionan la página Web o que informan que ésta a sido eliminada.
Enlaces técnicamente relevantes: Cuando la página se considera adecuada pero no útil, no se desenvuelve en el contexto requerido; presenta los términos de consulta bastante alejados uno del otro. O tienen el contexto adecuado pero presentan muy poca información.
Enlaces potencialmente útiles: No contienen el tema con la profundidad necesaria, o se centran en un aspecto específico del tema. Puede ocurrir que ésta página enlace a otra realmente útil.
Enlaces probablemente muy útiles: Tratan el tema extensamente y lo enlazan con otros documentos relacionados con la búsqueda.
3.3 Eficacia y Eficiencia
"La palabra eficacia se refiere al grado en que un sistema consigue sus objetivos. Se dice que un sistema es más eficaz que otro porque proporciona mejores resultados. El término eficiencia se refiere a la relación entre el grado de satisfacción de los resultados y el coste para obtenerlos. Un sistema es eficiente si consigue buenos resultados en un coste y en un tiempo razonable." [9]
Para que un sistema de recuperación de la información sea eficaz, ante una pregunta del usuario, debe recuperar todos los documentos relevantes disponibles en la base de datos, pero ninguno de los que sean irrelevantes.
La eficiencia aumenta si disminuye el coste, el tiempo de proceso y los recursos para que el sistema responda, el tiempo que los usuarios invierten en manejar el sistema, la disponibilidad del texto seleccionado (fulltext, resumen o referencia) y el idioma en el que se encuentran los documentos.
3.4 Medidas para la Evaluación de la Recuperación de la Información
Los parámetros más utilizados para las medidas de evaluación de un sistema de recuperación de información en Internet, serán expuestos a continuación.
3.4.1. Exahustividad
"Es la cualidad de un sistema de información para recuperar l totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda." María Pinto[10]
Otros términos utilizados para designar a la exahustividad son: Completitud, llamada y sus respectivas traducciones en inglés: exahustivy, completeness.
En la WWW la medida real de la Exahustividad no se puede calcular debido a la dificultad de conocer el número total de páginas relevantes para una pregunta específica, el número total de enlaces cambia velozmente, la WWW es muy dinámica, generando día a día nuevas páginas, actualizando sus contenidos y algunas que se van eliminando.
En algunos estudios se ha aplicado la medida de la relevancia, solo para un subconjunto de ítems en una colección. Se puede utilizar el método "Polling" para conocer la relevancia y así aplicar las medidas. Otra forma es procesar una pregunta concreta mediante varias búsquedas y métodos de recuperación diferentes o mediante un metabuscador, asumiendo que todos los documentos relevantes serán recuperados en estas diferentes búsquedas. Los resultados se combinan entre sí y el conjunto de documento relevante a esa pregunta se obtiene analizando la relevancia de cada referencia recuperada.
Cálculo de la Exahustividad (Recall)
La figura 1 representa el conjunto E de los documentos relevantes y el conjunto F que contiene los documentos no relevantes para una pregunta, dentro de una colección de n documentos.
Aquí encontramos los documentos relevantes para una necesidad de información.
La figura 2 tiene presente a los siguientes elementos, Aquí encontramos los documentos recuperados por el sistema para una pregunta.
A: Documentos relevantes recuperados
B: Documentos relevantes no recuperados
C: Documento no relevantes no recuperados
D: Documentos no relevantes no recuperados
Relevantes | No Relevantes | ||
Recuperados | A | C | G |
No Recuperados | B | D | |
E | F |
Figura 3. Tabla de Documentos relevantes, irrelevantes, recuperados y no recuperados.
E: Total de documentos relevantes
F: Total de documentos no relevantes
G: Total de documentos recuperados
La exahustividad es el número de documentos relevantes recuperados respecto al total de relevantes:
Exahustividad = A / E |
El parámetro del valor de exahustividad ha de encontrarse entre 0 y 1, el sistema ideal alcanzaría el 100 % de exahustividad, o sea 1.
3.4.2 La Precisión
Según María Pinto Molina "Es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados"[11]
Según Baeza – Yates "La precisión es la proporción de documentos relevantes en el total de los seleccionados. Los términos en la bibliografía inglesa son pertenece y precision." [12]
La precisión es indirectamente proporcional al cálculo de la exahustividad, quiere decir a mayor precisión será menor la exahustividad y viceversa.
Cuando se aumenta de tamaño la muestra observada es más probable obtener más documentos relevantes, por tanto se tiende a aumentar en la exahustividad, pero también es más probable obtener documentos no relevantes, por lo que la precisión disminuye.
Cálculo de la Precisión
La tasa de precisión se calcula con la siguiente fórmula:
Precisión: A / G
|
Para éste cálculo se utilizaron las figura 1, 2 y 3 del punto 3.4.1
Donde:
A: Documentos relevantes recuperados
G: Total de documentos recuperados
La tasa de precisión, debe tomar valores entre 0 y 1.
3.4.3 El Fracaso o Irrelevancia
Otro parámetro utilizado en la evaluación de los Sistemas de Recuperación de la Información en Internet, es la capacidad del sistema para recuperar los documentos no relevantes de la colección, es la medida del Fallout.
Se calcula con la siguiente fórmula:
Fracaso = C / F
|
Donde:
C = Documentos no relevantes recuperados.
F = Totalidad de documentos no relevantes.
3.4.4 Generalidad
La generalidad sirve para calcular la densidad de documentos relevantes. Se calcula dividiendo los documentos relevantes entre el total de los documentos de la base.
Generalidad = G / Número de Documentos |
Donde:
G: Total de documentos recuperados
3.5 Parámetros de evaluación en relación con el usuario
El usuario final ha de emitir juicios a partir de las respuestas que el sistema que ha consultado le brinde, dependiendo de éste tipo de juicios se han elaborado criterios para medir la recuperación de la información de los sistemas en Internet.
Los criterios que el usuario considera para decidir si el documento es relevante, no son estáticos, sino que dependen de la necesidad concreta en esos momentos, del conocimiento previo que posea sobre su consulta, de los fines o utilización de la información.
El usuario es quien finalmente decidirá y utilizará los documentos que crea son relevantes, decidirá si hay exahustividad y precisión. Según Baeza – Yates, está demostrado que la satisfacción del usuario depende de otras circunstancias adicionales a la eficacia.[13]
Exahustividad Relativa
Es la proporción de documentos relevantes que el sistema ha brindado al usuario, respecto del número de documentos que él esperaba que el sistema le brinde.
Exahustividad Relativa = A / Recuperación Esperada |
Precisión del usuario
Es el conjunto de documentos que el usuario ha encontrado relevantes en una muestra de tamaño que él ha designado o decidido, delimitada por él mismo.
Precisión del usuario = A / Muestra
|
3.5.3 Esfuerzo de Exahustividad
Es la proporción entre el número de documentos esperados, con respecto al número de documentos que ha sido necesario examinar para obtenerlos.
Esfuerzo de Exahustividad = Recuperación esperada |
3.5.4 Cobertura
Es la proporción de documentos relevantes seleccionados, que eran ya conocidos por los usuarios.
Cobertura = Doc. Relev. Seleccionados / Conocidos
|
3.5.5 Novedad
Es la proporción de documentos relevantes desconocidos por el usuario en la muestra
Novedad = Doc. Relev. Desconocidos / Muestra |
Conclusiones
La búsqueda de Información en Internet, utiliza varios elementos: términos, operadores lógicos, uso de paréntesis, truncamiento, formulación de la búsqueda en lenguaje natural, etc. Es mediante estos elementos que el usuario se comunica con el Sistema de Recuperación.
El proceso de recuperación de información de forma genérica se da: primero definiendo nuestras necesidades informativas, luego seleccionando nuestras herramientas a utilizar, también formulando nuestra ecuación de búsqueda a través de los operadores y por ultimo, evaluando la relevancia de los resultados para si se da el caso redefinir nuestra estrategia de búsqueda.
La selección y eficacia de los términos de búsqueda utilizados en la interacción con el sistema de recuperación, son proporcionales al éxito de la Recuperación de Información en Internet.
Las principales herramientas de búsqueda en Internet son: Directorios o Índices temáticos, Directorio de recursos evaluados, Motores o robots de búsqueda, Metabuscadores, Internet invisible, Portales, Agentes inteligentes, Weblogs, Directorios o índices temáticos.
Los modelos de recuperación clásicos son: Modelo booleano: Modelo vectorial: Modelo probabilístico, Modelo Relevance Feedback, Siendo todos estos modelos de recuperación para documentos de contenido textual.
La diversidad documental, de contenidos y formatos dificultan el proceso de recuperación; el método adoptado incidirá directamente en la eficacia de la recuperación de los recursos.
Para evaluar un sistema de recuperación de la información se ha de tomar en cuenta el aspecto objetivo (relacionado con el sistema en sí) y el subjetivo (satisfacción del usuario). Por lo que se toma como criterio base la relevancia de los documentos de la respuesta, para determinar la eficacia y eficiencia del sistema, en relación principalmente a las medidas de exhaustividad, y pertinencia.
Bibliografía
Benito, C. (2005). El Profesional de la Información. Rendimiento de 8 sistemas de recuperación de información del espacio web español, 5,335-346
Calvo, L. (2007). Enciclográfica: Diccionario de términos de Arte y Diseño [en línea]. Madrid: Enciclográfica. Recuperado el 02 de noviembre de 2007: http://www.sitographics.com/dicciona/a.html
Campos, D. (2007). Recuperación y Organizacion de la Informacion: Modelos de Recuperación I [en línea]. Madrid. Recuperado el 07 de noviembre de 2007: http://recuperacioninformacion.50webs.com/
Gómez, Raquel (2003, mayo). La evaluación en recuperación de la información. Hipertex.net [En línea], Nº1. Recuperado el 2 de noviembre: http://www.hipertext.net/web/pag238.html
Mañas, J. (1994). Búsqueda y Recuperación de Información en la Internet. [en línea]. Madrid: E.T.S. Recuperado el 09 de noviembre de 2007: http://www.ati.es/novatica/1994/jul-ago/manas.html
Martínez Méndez, Francisco (2002). Propuesta y Desarrollo de un modelo para la evaluación de la recuperación de información en Internet, [Documento en línea]. Murcia: Universidad de Murcia. Recuperado el 09 de noviembre de 2007: http://www.cervantesvirtual.com/FichaObra.html
Méndez Rodríguez, Eva (2002). Metadatos y Recuperación de Información en Internet. Metadatos y Recuperación de información: Estándares, problema y aplicabilidad en bibliotecas digitales. (236-239) Asturias: Ediciones Trea
Olvera, Dolores (2003, junio). Rendimiento de los sistemas de recuperación de información en la world wide web: revisión metodológica. Revista Española de Documentación Científica [en línea], Nº 1. Recuperado el 02 de noviembre de 2007: http://dialnet.unirioja.es/servlet/articulo
Peña, R., Baeza-Yates, R. y Rodríguez, J. (2002). Evaluación de la recuperación Gestión Digital de la Información: de bits a bibliotecas digitales y la Web (301). Madrid: Ra-Ma
Pinto, M. (2004). Búsqueda y Recuperación de Información [en línea]. Recuperado el 05 de noviembre de 2007: http://www.mariapinto.es/e-coms/recu_infor.html
Tramullas, J. (1997). Introducción a la Documática, 1: Teoría. [En línea]. Recuperado el 15 de octubre, 2007: http://tramullas.com/documatica/3-1.html
Autor:
Claudia Salaverry Sayán
Página anterior | Volver al principio del trabajo | Página siguiente |