- Resumen
- Introducción
- Tratamiento de
nulos - Cambio de la
distribución - Transformación en
categóricas - Transformación
de variables categóricas - Conclusiones
- Bibliografía
Resumen
En este artículo se discute un tema muy
importante pero muchas veces olvidado cuando se lleva adelante un
proyecto de
Data Mining: la preparación de los datos antes de
utilizar cualquier herramienta de modelado. Preparar los datos no
es un asunto trivial, y los beneficios pueden llegar a ser
enormes. No es inusual que un modelo de
predicción mejore un 50% su rendimiento si los datos con
que se realizó el mismo fueron preparados
previamente.
Introducción
El último propósito de un proyecto de Data
Mining o Minería de
Datos es obtener el
conocimiento necesario acerca de alguna situación a
fin de controlarla o al menos predecir qué sucederá
frente a determinadas condiciones. Esto es muy similar a lo que
hacemos cada vez que nos enfrentamos a situaciones de la vida
diaria. No sólo obtenemos la mayor información posible por medio de nuestra
experiencia, sino que la vamos almacenando en nuestra memoria y
tratamos de encontrar cómo se relacionan diferentes hechos
u objetos. Una vez que conocemos lo suficiente estamos en
posición de predecir qué sucederá, y si
somos capaces de modificar las condiciones actuales, podremos
actuar para obtener lo que deseamos.
Cuando elaboramos un proyecto de Data Mining, los datos
que usamos están en la memoria de
una computadora y
el motor
analítico es un programa o
algoritmo
capaz de encontrar esas relaciones. Una vez encontradas las
mismas, nos permitirán entender los datos que asumimos
fueron generados por algún mecanismo y provenientes de
algún sistema o
situación de interés,
por ejemplo la interacción de los clientes con
una
empresa.
Si la situación de interés fuera simple,
quizás no haría falta recurrir a una computadora,
pero si se torna compleja o demasiado grande para manejarla en
nuestro cerebro,
necesitamos alguna herramienta que nos asista, y qué mejor
que una computadora. El único requisito es contar con
datos que contengan la información necesaria para nuestro
propósito.
En Data Mining los datos generalmente están en
forma de tabla, en donde cada fila representa el objeto de
interés, por ejemplo, un cliente, un
producto o un
paciente, y cada columna contiene información acerca de
algún atributo del objeto. Por ejemplo en el caso de un
paciente podría ser la edad, el peso, la presión
arterial, etc. Muchas veces los datos vienen en forma
transaccional y se necesita un trabajo de
ensamblado previo a fin de obtener la tabla
mencionada.
Tanto algoritmos de
Data Mining como seres humanos recurrimos a un método
común para hacer la cantidad de datos manejable: usamos
modelos.
Un buen modelo debería capturar las partes
más importantes de la situación y dejar de lado los
detalles que no hacen al comportamiento. Si lo logra, entonces parte del
trabajo ya está hecho. Sólo resta interpretar este
modelo (entender las relaciones explícitas en el modelo) y
ponerlo a trabajar, ya sea para predecir o para
controlar.
Así como existen distintas clases de modelos,
también existen diferentes tipos de herramientas
para crearlos. Cuando los datos están preparados, es
posible utilizar modelos más simples y aún obtener
excelentes resultados. Pero ¿qué significa preparar
los datos?
Preparación de variables
Además de decidir qué hacer con los nulos,
con los outliers y con datos no balanceados, la
preparación de datos implica modificar la distribución de variables
numéricas, transformarlas en categóricas y
transformar variables categóricas en numéricas si
es necesario.
Página siguiente |