Agenda
Introducción.
Objetivo del Proyecto.
Algoritmo
Implementación
Presentación de la Aplicación
Conclusiones.
1
Introducción
Definición Web Crawlers
Es un programa que recorre las páginas del World Wide Web de forma metódica y automatizada, las descarga y procesa, comienzan visitando una lista de URL, identifican los hiperenlaces en dichas páginas y los añade a la lista a visitar de manera recurrente de acuerdo a determinado conjunto de reglas.
2
Introducción
Entre ellos estan las arañas, bots, buscadores, web Crawlers.
Algunas de las tareas más comunes de las arañas web están las siguientes:
Crear el índice de una máquina de búsqueda.
Analizar los enlaces de un sitio para buscar links rotos.
Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.
3
Introducción
Los tipos de busqueda determinados para trabajar con las arañas web son:
Índices de Búsqueda
Motores de Búsqueda
Metabuscadores
4
Objetivo General del Proyecto
Analizar, Desarrollar e Implementar el Sistema Automatizado de Búsqueda Web (Web Crawlers) de promociones de Ticket Aéreos y Portal Web para la Agencia de Viajes y Turismo Mundo Valle Cía. Ltda., mediante la utilización de software libre.
5
Objetivos Específicos
Investigar los principios en los que se basan los algoritmos de búsqueda de datos a través de grandes cantidades de información y seleccionar el más óptimo de ellos para este sistema.
Analizar la administración y funcionamiento de la Agencia.
Desarrollar el portal web de la agencia y el pago en línea
Implementar y realizar las pruebas necesarias del sistema para detectar problemas de rendimiento.
6
Conceptos Generales del Proyecto
7
Programa, que permite encontrar contenidos, archivos, páginas Web y demás recursos.
Desde el punto de vista del usuario no es más que una página Web, desde el punto de vista de una página Web.
8
BUSCADOR
SECUENCIA BÁSICA DE UN BUSCADOR
Pseudo-Algoritmo
Inicializar las URLs
Verificar la finalización, agregar a la pila
Encontrar los enlaces
Procesar las páginas
Agregar las URLs a ser procesadas
** la pila contiene una lista para el web crawler de URLs no visitadas con nuevas páginas y enlaces.
10
BÚSQUEDA DE INFORMACIÓN
BÚSQUEDA DE INFORMACIÓN
Página siguiente |