Data Warehouse, Modelo, Conceptos e Implementación orientada a SQL Server
- Resumen
- Data Warehouse, Conceptos
Fundamentales - El
Modelo de Hechos Dimensionales (DFM-Dimention Fact
Model) - Diagrama en
Estrella - Obtención
y Transformación de los Datos - Técnicas de
desarrollo del soporte de Hardware - Datos
distribuidos - Consultas
distribuidas - Salva y
restaura de datos - Conclusiones
- Bibliografía
Resumen
Este trabajo intenta dar una idea bastante acertada
sobre el trabajo con sistemas Data Warehouse, presentando la
teoría fundamental que sustenta este tipo de
representación y procesamiento de los datos en la
actualidad: El Modelo Dimensional (DFM: Dimention Fact Model).
Además brinda ejemplos prácticos de cómo
llevar a cabo tareas primordiales de un Data Warehouse, como son:
La extracción de los datos desde otros sistemas o
formatos. Mostrando así las facilidades que brinda la
herramienta de transformación de datos de Microsoft SQL
Server 2000 (DTS: Data Transformation Service). En otros
apartados posteriores trata de resumir el tema de la
programación distribuida, las diferentes técnicas
de distribución de los datos orientado principalmente a
Microsoft SQL Server 2000, las diferentes estrategias para
mejorar el hardware de un Data Warehouse y finalmente se aborda
el tema de la salva de los datos, mostrando como ejemplo un
script de salva incremental.
Introducción
Data Warehouse no es un término nuevo si no una
vieja rutina con un nombre nuevo. El almacenamiento de datos
históricos y análisis de estos para tomar
decisiones futuras ya era practicado por los aztecas y mallas en
su increíble calendario solar. Incluso los egipcios
atesoraban registros de las primaveras con amplios
desbordamientos del Nilo, que les permitía saber si el
año sería de una buena cosecha o no.
El estudio de datos relacionados con la gestión
empresarial, empezó cuando todavía la
computación no llegaba a dar respuesta a estos problemas.
Los directivos estudiaban enormes informes elaborados por
comerciales y económicos compuestos de varias
páginas de datos escrupulosamente resumidos. El avance de
la computación ha hecho el trabajo un poco más
fácil. El uso de aplicaciones OLTP (Online Transaction
Proccesing) ha traído consigo la recopilación muy
rápida de datos que antes era casi imposible obtener,
aunque haciendo uso en muchos casos de múltiples sistemas
que usan SGBDR(Sistemas Gestores de Bases de Datos Relacionales)
diferentes e incompatibles. Esto hace difícil el
correlacionar los datos obtenidos desde estos diversos sistemas
teniendo que volver al análisis impreso. Así esta
nueva teoría viene a resolver un problema viejo usando una
nueva técnica: OLAP (Online Analitical Proccesing)
Procesamiento Anlítico En Línea.
Existen diversas variantes sobre esta teoría, que
definen el futuro desarrollo de este tipo de aplicaciones, pero
una de las más aceptadas hasta ahora es el Modelo de
Hechos Dimensionales (DFM: Dimention Fact Model), que veremos a
continuación para dar comienzo a nuestro
estudio.
Data Warehouse,
Conceptos Fundamentales
Para empezar vamos a enunciar una serie de conceptos
básicos que nos permitirán entender toda la
teoría que seguirá en los restantes apartados de
este documento:
- Data Warehouse: Es la integración de
datos consolidados, almacenados en un dispositivo de memoria no
volátil, proveniente de múltiples y posiblemente
diferentes fuentes de datos. Con el propósito del
análisis y a partir de este tomar decisiones en
función de mejorar la gestión del negocio.
Contiene un conjunto de cubos de datos que permiten a
través de técnicas de OLAP consolidar, ver y
resumir los datos acorde a diferentes dimensiones de estos.
(Chaudhuri & Dayal, 1997) - Data Marts: Es un subconjunto del Data
Warehouse, usado normalmente para el análisis parcial de
los datos. Ej: El Data Mart de los datos del departamento
ventas y el Data Mart de Inventarios. El objetivo de subdividir
está dado por la complejidad computacional del
análisis global de todas las dimensiones del Data
Warehouse y por la necesidad de rapidez. (Microsft Data
Warehouse Training, 2000) - Data Mining: Es el descubrimiento de
conocimiento oculto en las bases de datos. Relaciones entre
estos y tendencias que permiten una toma de decisiones
acertada. Incluye Asociación, Caracterización,
Clasificación, Análisis de Series
Cronológicas, etc. (Chaudhuri & Dayal,
1997).
- OLTP (Online Transaction Proccesing): Se les
llama así a las aplicaciones orientadas principalmente a
la inserción, actualización y eliminación
de datos, diseñada casi siempre usando el modelo
Relacional. Estos sistemas están optimizados para
realizar estas operaciones en un tiempo corto. (Microsoft Books
Online, 2000) - OLAP (Online Analitical Proccesing): Son los
sistemas que se usan para analizar los datos que las OLTP
introducen en la Base de Datos. A diferencia de los primeros
estos casi siempre usan el modelo multidimensional para
organizar los datos en la Base de Datos ya que brindan mejores
resultados a la hora del análisis de estos. (Microsoft
Books Online, 2000)
Página siguiente |