Recuperación de Información

Recuperación de Información

            Los SRI también llamados Sistemas de Gestión Documental son uno de los modelos de los sistemas de información automatizada cuyo objetivo es la recuperación de documentos que contengan información probablemente relevante para satisfacer las necesidades del usuario expresadas con
una estrategia de búsqueda

Uno de los fenómenos más importantes de los últimos años en el campo de la Información es el desarrollo y espectacular crecimiento de Internet, especialmente de lo que conocemos como Web. El número de páginas crece exponencialmente y afecta a todos los ámbitos del conocimiento . 

Básicamente, los sistemas de recuperación en el Web utilizan dos mecanismos, que no son excluyentes entre sí y que pueden utilizarse de forma combinada.
- Uno es la búsqueda mediante palabras clave.
- El otro es la clasificación en clases o categorías de páginas web.

En el caso conocido de las búsquedas por palabras clave se pueden aplicar diversas técnicas
que mejoren los resultados, tendentes fundamentalmente a superar o aminorar lo que algunos autores han denominado como la barrera semántica: la manera de expresar una misma idea o concepto difiere de unas personas a otras. Buena parte de tales técnicas tienen que ver con la expansión de la consulta o adición de nuevos términos a las palabras clave de la búsqueda, en especial la realimentación por relevancia.


Otra posibilidad es el uso de
tesauros. Éstos pueden ser elaborados previamente de forma manual por lo general, y estar especializados en algún dominio del conocimiento concreto, o bien pueden construirse de forma más o menos automática. Para esto último se aplican mecanismos de análisis de similitud o distancia entre términos. Entre las técnicas utilizadas podemos citar los denominados tesauros de similitud, el análisis de cluster para agrupar automáticamente palabras relacionadas, o la utilización de redes neuronales para la obtención de términos cercanos o relacionados.

 

Por lo que se refiere a las búsquedas mediante categorización previa, dicha clasificación suele efectuarse manualmente, aunque hay experiencias interesantes de clasificación automática de páginas web, como por ejemplo el proyecto WEBSOM (http://websom.hut.fi/websom/), en el que se utilizan mapas autoorganizativos para establecer categorías de términos. Esas categorías se emplean para definir o representar vectores de las páginas web, con los cuales se puede construir, aplicando el mismo mecanismo, un mapa visual de las propias páginas colocadas en función de su similitud. El usuario puede utilizar dicho mapa para, una vez seleccionada alguna de las páginas, obtener las más cercanas o más relacionadas con ella.

 

Los sistemas generales de búsqueda tienden a manejar bases de datos muy grandes. En general, la experiencia de los usuarios de tales sistemas de búsqueda muestra claramente que se producen respuestas de muy baja precisión. En cuanto a la exhaustividad, se percibe en términos brutos como muy alta (la típica respuesta de un buscador con cientos o miles de páginas encontradas). Aunque esta exhaustividad debe ser relativizada, puesto que es conocido que incluso los buscadores más importantes cubren sólo una parte de todo el espacio Web, el hecho es que respuestas con un número tan alto de páginas encontradas producen en el usuario el fenómeno bien conocido de la sobrecarga de información (desbordamiento cognitivo).

 

POSICIONAMIENTO


¿Qué significa el posicionamiento en buscadores o posicionamiento web?

        El posicionamiento en buscadores significa colocar una web en los buscadores y hacer que aparezca entre los mejores resultados, sino el mejor, para determinadas búsquedas que realicen los usuarios de la web.

¿Por qué es necesario?

        Esta pregunta se responde fácilmente al saber que más del 80% de los usuarios de la web utilizan buscadores para encontrar información acerca de sus intereses. No alcanza con sólo estar en ellos. Hay que aparecer, al menos, en la primera página de los resultados para determinadas búsquedas. Esto se explica con el básico conocimiento de que una persona entrará a las webs que aparezcan primeras para su búsqueda y, en ningún caso, pasarán de la segunda o tercera página de resultados. Ahí entra en acción el posicionamiento en
buscadores o posicionamiento web.

PAGERANK EN GOOGLE

PageRankTM (PR) es un valor numérico que representa la importancia que una página web tiene en Internet. Google se hace la idea de que cuando una página coloca un enlace (link) a otra, es de hecho un voto para esta última.

Cuantos más votos tenga una página, será considerada más importante por Google. Además, la importancia de la página que emite su voto también determina el peso de este voto. De esta manera, Google calcula la importancia de una página gracias a todos los votos que reciba, teniendo en cuenta también la importancia de cada página que emite el voto.

PageRankTM (desarrollado por los fundadores Larry Page y Sergey Brin) es la manera que tiene Google de decidir la importancia de una página. Es un dato valioso, porque es uno de los factores que determinan la posición que va a tener una página dentro de los resultados de la búsqueda. No es el único factor que Google utiliza para clasificar las páginas, pero sí es uno de los más importantes.

Hay que tener en cuenta que no todos los links son tenidos en cuenta por Google. Por ejemplo, Google filtra y descarta los enlaces de páginas dedicadas exclusivamente a colocar links (llamadas 'link farms').

Además, Google admite que una página no puede controlar los links que apuntan hacia ella, pero sí que puede controlar los enlaces que esta página coloca hacia otras páginas. Por ello, links hacia una página no pueden perjudicarla, pero sí que enlaces que una página coloque hacia sitios penalizados, pueden ser perjudiciales para su PageRankTM.

Si un sitio web tiene PR0, generalmente es una web penalizada, y podría ser poco inteligente colocar un link hacia ella.

Una manera de conocer el PageRankTM de una página es decargándose la barra de búsqueda de Google (solamente disponible para MS IExplorer). Aparece una barra en la que se muestra en color verde el valor de PageRankTM en una escala de 0 a 10.

El algoritmo de 'PageRankTM' fue patentado en Estados Unidos el día 8 de enero de 1998, por Larry Page. El título original es 'Method for node ranking in a linked database', y le fue asignado el número de patente 6,285,999.