- Resumen
- La Minería de Datos y el
Descubrimiento de Conocimiento en Bases de
Datos - Herramientas para la
minería de Datos. SQL Server 2005 - Metodologías
de desarrollo para proyectos de Minería de Datos.
CRISP-DM - Resultados del Caso
de Estudio - Evaluación
- Despliegue
- Conclusiones
- Recomendaciones
- Referencias
Obtención de patrones y reglas
en el proceso
académico de la Universidad de
las Ciencias
informáticas utilizando técnicas
de minería de
datos
RESUMEN
A partir de la aplicación de un grupo de
técnicas de Minería de Datos como el
clustering, los árboles
de decisión y algoritmos de
aprendizaje
inductivo, se pretende clasificar a los estudiantes de acuerdo a
su rendimiento académico, para posteriormente encontrar
patrones ocultos y reglas que los caractericen; basado en las
relaciones que se establecen entre el centro de procedencia de
los estudiantes, nivel de escolaridad de los padres y provincia
de origen con sus resultados académicos en el primer curso
en la universidad. Estos resultados pueden mejorar el proceso de
formación académica y elevar la calidad de
la
educación en la Universidad de las Ciencias
Informáticas (UCI).
Palabras claves: Calidad del proceso docente,
Descubrimiento de Conocimientos en Bases de Datos,
Minería de Datos.
ABSTRACT
This investigation intends to classify the students
of the University of Informatics Sciences according to their
academic behaviour using a set of Data Mining techniques like
clustering, decision trees and inductive learning algorithms. The
main goal of this work is to find hidden patterns and rules that
define this behaviour, based on the relationship established
between the scholarship level of the student’s parents, and
their academic origins with their grades in the first year of
their career. These results can help to improve the quality of
the academic process in the UCI.
Key words: Quality of the academic process, Knowledge
Discovery in Databases, Data Mining
INTRODUCCIÓN
La Universidad de las Ciencias Informáticas (UCI)
cuenta desde el curso escolar 2006-2007 con una matrícula
de alrededor de 10 000 estudiantes procedentes de todas las
provincias y municipios del país, con los más
diversos orígenes sociales y académicos; sin que,
hasta el momento, se hayan realizado estudios que evalúen
la influencia de estos factores en su formación posterior.
Por lo que estos factores no son tomados en cuenta a la hora de
realizar el proceso de captación de los estudiantes de
nuevo ingreso a la universidad, ni de brindarles a los ya
matriculados el seguimiento necesario, lo que puede conducirlos
en condiciones extremas a causar baja del centro. Mientras que en
otros casos se dejan de identificar a los alumnos con mayor
potencial, que pudieran formar parte de proyectos o
grupos de
investigación, o simplemente armar al
claustro de profesores con la información conveniente para que puedan
brindarle atención diferenciada a sus estudiantes en
aras de fomentar el pleno desarrollo de
sus capacidades y dándole así cumplimiento al
objetivo
primordial de la Universidad, que es el de formar profesionales
de la informática cada vez mejor
preparados.
Toda la información personal y
docente de los estudiantes, desde hace cinco años se
encuentra digitalizada y se mantiene en históricos que no
brindan mayor utilidad que la
de los reportes tradicionales.
Es por esto que en la Universidad se hace necesario
contar con métodos
eficientes y automáticos para explorar las grandes Bases
de Datos, procesando de forma rápida y fiable la
información para encontrar patrones de conocimiento
apropiados para resolver un problema.
Es por esto que el objetivo fundamental de este trabajo
está orientado a determinar el vínculo que existe
entre el origen y procedencia social de los estudiantes de la UCI
con sus resultados académicos mediante la
aplicación de técnicas de agrupación y
reglas de asociación de Minería de
Datos.
La Minería de Datos (DM) por las siglas en
inglés
Data Mining es el proceso de extraer conocimiento útil y
comprensible, previamente desconocido, desde grandes cantidades
de datos almacenados en distintos formatos [1]. Las herramientas
de Data Mining predicen futuras tendencias y comportamientos,
permitiendo en los negocios la
toma de
decisiones.
Existen términos que se utilizan frecuentemente
como sinónimos de la minería de datos. Uno de ellos
se conoce como "análisis (inteligente) de datos" [2], que
suele hacer un mayor hincapié en las técnicas de
análisis estadístico. Otro término muy
utilizado, y el mas relacionado con la minería de datos,
es la extracción o "descubrirniento de conocimiento en
bases de datos" (Knowledge Discovery in Databases o KDD,
según sus siglas en inglés). [3]
Aunque algunos autores usan los términos
Minería de Datos y KDD indistintamente, como
sinónimos, existen claras diferencias entre los dos.
Así la mayoría de los autores coinciden en
referirse al KDD como un proceso que consta de un conjunto de
fases, una de las cuales es la minería de datos. [2] De
acuerdo con esto, el proceso de minería de datos consiste
únicamente en la aplicación de un algoritmo para
extraer patrones de datos y se llamará KDD al proceso
completo que incluye pre-procesamiento, minería y
post-procesamiento de los datos.
El KDD según [4] es la extracción
automatizada de conocimiento o patrones interesantes, no
triviales, implícitos, previamente desconocidos,
potencialmente útiles y predictivos de la
información de grandes Bases de Datos.
La figura 1 muestra las fases
del proceso de KDD, una de las cuales es la Minería de
Datos
Figura 1: Fases del
proceso KDD
Las investigaciones
en temas de KDD incluyen análisis estadístico,
técnicas de representación del conocimiento y
visualización de datos, entre otras. Algunas de las tareas
más frecuentes en procesos de
KDD son la clasificación y clustering, el reconocimiento
de patrones, las predicciones y la detección de
dependencias o relaciones entre los datos.
Página siguiente |