Monografias.com > Computación > General
Descargar Imprimir Comentar Ver trabajos relacionados

La importancia de preparar los datos en un proyecto de Data Mining



Partes: 1, 2

    1. Resumen
    2. Introducción
    3. Tratamiento de
      nulos
    4. Cambio de la
      distribución
    5. Transformación en
      categóricas
    6. Transformación
      de variables categóricas
    7. Conclusiones
    8. Bibliografía

    Resumen

    En este artículo se discute un tema muy
    importante pero muchas veces olvidado cuando se lleva adelante un
    proyecto de
    Data Mining: la preparación de los datos antes de
    utilizar cualquier herramienta de modelado. Preparar los datos no
    es un asunto trivial, y los beneficios pueden llegar a ser
    enormes. No es inusual que un modelo de
    predicción mejore un 50% su rendimiento si los datos con
    que se realizó el mismo fueron preparados
    previamente.

    Introducción

    El último propósito de un proyecto de Data
    Mining o Minería de
    Datos es obtener el
    conocimiento necesario acerca de alguna situación a
    fin de controlarla o al menos predecir qué sucederá
    frente a determinadas condiciones. Esto es muy similar a lo que
    hacemos cada vez que nos enfrentamos a situaciones de la vida
    diaria. No sólo obtenemos la mayor información posible por medio de nuestra
    experiencia, sino que la vamos almacenando en nuestra memoria y
    tratamos de encontrar cómo se relacionan diferentes hechos
    u objetos. Una vez que conocemos lo suficiente estamos en
    posición de predecir qué sucederá, y si
    somos capaces de modificar las condiciones actuales, podremos
    actuar para obtener lo que deseamos.

    Cuando elaboramos un proyecto de Data Mining, los datos
    que usamos están en la memoria de
    una computadora y
    el motor
    analítico es un programa o
    algoritmo
    capaz de encontrar esas relaciones. Una vez encontradas las
    mismas, nos permitirán entender los datos que asumimos
    fueron generados por algún mecanismo y provenientes de
    algún sistema o
    situación de interés,
    por ejemplo la interacción de los clientes con
    una
    empresa.

    Si la situación de interés fuera simple,
    quizás no haría falta recurrir a una computadora,
    pero si se torna compleja o demasiado grande para manejarla en
    nuestro cerebro,
    necesitamos alguna herramienta que nos asista, y qué mejor
    que una computadora. El único requisito es contar con
    datos que contengan la información necesaria para nuestro
    propósito.

    En Data Mining los datos generalmente están en
    forma de tabla, en donde cada fila representa el objeto de
    interés, por ejemplo, un cliente, un
    producto o un
    paciente, y cada columna contiene información acerca de
    algún atributo del objeto. Por ejemplo en el caso de un
    paciente podría ser la edad, el peso, la presión
    arterial, etc. Muchas veces los datos vienen en forma
    transaccional y se necesita un trabajo de
    ensamblado previo a fin de obtener la tabla
    mencionada.

    Tanto algoritmos de
    Data Mining como seres humanos recurrimos a un método
    común para hacer la cantidad de datos manejable: usamos
    modelos.

    Un buen modelo debería capturar las partes
    más importantes de la situación y dejar de lado los
    detalles que no hacen al comportamiento. Si lo logra, entonces parte del
    trabajo ya está hecho. Sólo resta interpretar este
    modelo (entender las relaciones explícitas en el modelo) y
    ponerlo a trabajar, ya sea para predecir o para
    controlar.

    Así como existen distintas clases de modelos,
    también existen diferentes tipos de herramientas
    para crearlos. Cuando los datos están preparados, es
    posible utilizar modelos más simples y aún obtener
    excelentes resultados. Pero ¿qué significa preparar
    los datos?

    Preparación de variables

    Además de decidir qué hacer con los nulos,
    con los outliers y con datos no balanceados, la
    preparación de datos implica modificar la distribución de variables
    numéricas, transformarlas en categóricas y
    transformar variables categóricas en numéricas si
    es necesario.

     

    Partes: 1, 2

    Página siguiente 

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter