Monografias.com > Computación > Redes
Descargar Imprimir Comentar Ver trabajos relacionados

Data Mining




Enviado por universidadsr



    Indice

    1.
    Glosario

    Algoritmos genéticos: Técnicas
    de optimización que usan procesos tales
    como combinación genética,
    mutación y selección
    natural en un diseño
    basado en los conceptos de evolución natural.

    Análisis de series de tiempo
    (time-series): Análisis de una secuencia de medidas hechas
    a intervalos específicos. El tiempo es
    usualmente la dimensión dominante de los datos.

    Análisis prospectivo de datos: Análisis de datos que predice futuras
    tendencias, comportamientos o eventos basado en
    datos históricos.

    Análisis exploratorio de datos: Uso de técnicas
    estadísticas tanto gráficas como descriptivas para aprender
    acerca de la estructura de
    un conjunto de datos.

    Análisis retrospectivo de datos: Análisis
    de datos que provee una visión de las tendencias,
    comportamientos o eventos basado en
    datos históricos.

    Árbol de decisión: Estructura en
    forma de árbol que representa un conjunto de decisiones.
    Estas decisiones generan reglas para la clasificación de
    un conjunto de datos. Ver CART y CHAID.

    Base de datos multidimensional: Base de datos
    diseñada para procesamiento analítico on-line
    (OLAP). Estructurada como un hipercubo con un eje por
    dimensión.

    CART Árboles
    de clasificación y regresión: Una técnica de
    árbol de decisión usada para la
    clasificación de un conjunto da datos. Provee un conjunto
    de reglas que se pueden aplicar a un nuevo (sin clasificar)
    conjunto de datos para predecir cuáles registros
    darán un cierto resultado. Segmenta un conjunto de datos
    creando 2 divisiones. Requiere menos preparación de datos
    que CHAID .

    CHAID Detección de interacción
    automática de Chi cuadrado: Una técnica de
    árbol de decisión usada para la
    clasificación de un conjunto da datos. Provee un conjunto
    de reglas que se pueden aplicar a un nuevo (sin clasificar)
    conjunto de datos para predecir cuáles registros
    darán un cierto resultado. Segmenta un conjunto de datos
    utilizando tests de chi cuadrado para crear múltiples
    divisiones. Antecede, y requiere más preparación de
    datos, que CART.

    Clasificación: Proceso de
    dividir un conjunto de datos en grupos mutuamente
    excluyentes de tal manera que cada miembro de un grupo
    esté lo "más cercano" posible a otro, y grupos diferentes
    estén lo "más lejos" posible uno del otro, donde la
    distancia está medida con respecto a variable(s)
    específica(s) las cuales se están tratando de
    predecir. Por ejemplo, un problema típico de
    clasificación es el de dividir una base de datos de
    compañías en grupos que son lo más
    homogéneos posibles con respecto a variables como
    "posibilidades de crédito" con valores tales
    como "Bueno" y "Malo".

    Clustering (agrupamiento): Proceso de
    dividir un conjunto de datos en grupos mutuamente excluyentes de
    tal manera que cada miembro de un grupo
    esté lo "más cercano" posible a otro, y grupos
    diferentes estén lo "más lejos" posible uno del
    otro, donde la distancia está medida con respecto a todas
    las variables
    disponibles.

    Computadoras con multiprocesadores: Una computadora
    que incluye múltiples procesadores
    conectados por una red. Ver procesamiento
    paralelo.

    Data cleansing: Proceso de asegurar que todos los valores en
    un conjunto de datos sean consistentes y correctamente
    registrados.

    Data Mining: La extracción de información predecible escondida en grandes
    bases de
    datos.

    Data Warehouse: Sistema para el
    almacenamiento y
    distribución de cantidades masivas de
    datos

    Datos anormales: Datos que resultan de errores (por ej.:
    errores en el tipeado durante la carga) o que representan eventos
    inusuales.

    Dimensión: En una base de datos relacional o
    plana, cada campo en un registro
    representa una dimensión. En una base de datos
    multidimensional, una dimensión es un conjunto de
    entidades similares; por ej.: una base de datos multidimensional
    de ventas
    podría incluir las dimensiones Producto,
    Tiempo y Ciudad.

    Modelo analítico: Una estructura y proceso para
    analizar un conjunto de datos. Por ejemplo, un árbol de
    decisión es un modelo para la
    clasificación de un conjunto de datos

    Modelo lineal: Un modelo
    analítico que asume relaciones lineales entre una variable
    seleccionada (dependiente) y sus predictores (variables
    independientes).

    Modelo no lineal: Un modelo analítico que no
    asume una relación lineal en los coeficientes de las
    variables que son estudiadas.

    Modelo predictivo: Estructura y proceso para predecir
    valores de
    variables especificadas en un conjunto de datos.

    Navegación de datos: Proceso de visualizar
    diferentes dimensiones, "fetas" y niveles de una base de datos
    multidimensional. Ver OLAP.

    OLAP Procesamiento analítico on-line (On Line
    Analitic prossesing): Se refiere a aplicaciones de bases de datos
    orientadas a array que permite a los usuarios ver, navegar,
    manipular y analizar bases de datos
    multidimensionales.

    Outlier: Un item de datos cuyo valor cae
    fuera de los límites
    que encierran a la mayoría del resto de los valores
    correspondientes de la muestra. Puede
    indicar datos anormales. Deberían ser examinados
    detenidamente; pueden dar importante información.

    Procesamiento paralelo: Uso coordinado de
    múltiples procesadores para
    realizar tareas computacionales. El procesamiento paralelo puede
    ocurrir en una computadora
    con múltiples procesadores o en una red de estaciones de trabajo
    o PCs.

    RAID: Formación redundante de discos baratos
    (Redundant Array of inexpensive disks). Tecnología para el
    almacenamiento
    paralelo eficiente de datos en sistemas de
    computadoras
    de alto rendimiento.

    Regresión lineal: Técnica estadística utilizada para encontrar la
    mejor relación lineal que encaja entre una variable
    seleccionada (dependiente) y sus predicados (variables
    independientes).

    2. Fundamentos del Data
    Mining

    Las técnicas de Data Mining son el resultado de
    un largo proceso de investigación y desarrollo de
    productos.
    Esta evolución comenzó cuando los datos
    de negocios
    fueron almacenados por primera vez en computadoras,
    y continuó con mejoras en el acceso a los datos, y
    más recientemente con tecnologías generadas para
    permitir a los usuarios navegar a través de los datos en
    tiempo real. Data Mining toma este proceso de evolución
    más allá del acceso y navegación
    retrospectiva de los datos, hacia la entrega de
    información prospectiva y proactiva. Data Mining
    está listo para su aplicación en la comunidad de
    negocios
    porque está soportado por tres tecnologías que ya
    están suficientemente maduras:

    • Recolección masiva de datos
    • Potentes computadoras con
      multiprocesadores
    • Algoritmos de Data Mining

    Las bases de datos comerciales están creciendo a
    un ritmo sin precedentes. Un reciente estudio del META GROUP
    sobre los proyectos de
    Data Warehouse
    encontró que el 19% de los que contestaron están
    por encima del nivel de los 50 Gigabytes, mientras que el 59%
    espera alcanzarlo en el segundo trimestre de 1997. En algunas
    industrias, tales
    como ventas al por
    menor (retail), estos números pueden ser aún
    mayores. MCI Telecommunications Corp. cuenta con una base de
    datos de 3 terabytes + 1 terabyte de índices y overhead
    corriendo en MVS sobre IBM SP2. La necesidad paralela de motores
    computacionales mejorados puede ahora alcanzarse de forma
    más costo – efectiva
    con tecnología de computadoras con
    multiprocesamiento paralelo. Los algoritmos de
    Data Mining utilizan técnicas que han existido por lo
    menos desde hace 10 años, pero que sólo han sido
    implementadas recientemente como herramientas
    maduras, confiables, entendibles que consistentemente son
    más performantes que métodos
    estadísticos clásicos.

    En la evolución desde los datos de negocios a
    información de negocios, cada nuevo paso se basa en el
    previo. Por ejemplo, el acceso a datos dinámicos es
    crítico para las aplicaciones de navegación de
    datos (drill through applications), y la habilidad para almacenar
    grandes bases de datos es crítica para Data
    Mining.

    Los componentes esenciales de la tecnología de
    Data Mining han estado bajo
    desarrollo por
    décadas, en áreas de investigación como estadísticas, inteligencia
    artificial y aprendizaje de
    máquinas. Hoy, la madurez de estas
    técnicas, junto con los motores de bases
    de datos relacionales de alta performance, hicieron que estas
    tecnologías fueran prácticas para los entornos de
    data warehouse
    actuales.

    Qué es Data Mining?

    Data Mining, la extracción de información
    oculta y predecible de grandes bases de datos, es una poderosa
    tecnología nueva con gran potencial que ayuda a las
    compañías a concentrarse en la información
    más importante de sus Bases de Información (Data
    Warehouse).

    Un Sistema
    Datamining es una tecnología de soporte para usuario final
    cuyo objetivo es
    extraer conocimiento
    útil y utilizable a partir de la información
    contenida en las bases de datos de las empresas.

    Cómo se desarrollan los sistemas Data
    Mining?

    Los sistemas Datamining se desarrollan bajo lenguajes de
    última generación basados en la inteligencia
    artificial y utilizan modelos
    matemáticos tales como:

    Redes neuronales artificiales: modelos
    predecible no-lineales que aprenden a través del entrenamiento y
    semejan la estructura de una red neuronal
    biológica.

    Arboles de decisión: estructuras de
    forma de árbol que representan conjuntos de
    decisiones. Estas decisiones generan reglas para la
    clasificación de un conjunto de datos. Métodos
    específicos de árboles
    de decisión incluyen Arboles de
    Clasificación y Regresión (CART: Classification And
    Regression Tree) y Detección de Interacción
    Automática de Chi Cuadrado (CHAI: Chi Square Automatic
    Interaction Detection)

    Algoritmos genéticos: técnicas de
    optimización que usan procesos tales
    como combinaciones genéticas, mutaciones y selección
    natural en un diseño
    basado en los conceptos de evolución.

    Método del vecino más cercano: una
    técnica que clasifica cada registro en un
    conjunto de datos basado en una combinación de las clases
    del/de los k registro (s) más similar/es a él en un
    conjunto de datos históricos (donde k ? 1). Algunas veces
    se llama la técnica del vecino k-más
    cercano.

    Regla de inducción: la extracción de reglas
    if-then de datos basados en significado
    estadístico.

    Muchas de estas tecnologías han estado en uso
    por más de una década en herramientas
    de análisis especializadas que trabajan con
    volúmenes de datos relativamente pequeños. Estas
    capacidades están ahora evolucionando para integrarse
    directamente con herramientas OLAP y de Data
    Warehousing.

    Qué son capaces de hacer las herramientas del
    Data Mining?

    Las herramientas de Data Mining predicen futuras
    tendencias y comportamientos, permitiendo en los negocios tomar
    decisiones proactivas y conducidas por un conocimiento
    acabado de la información (knowledge-driven). Los
    análisis prospectivos automatizados ofrecidos por un
    producto
    así van más allá de los eventos pasados
    provistos por herramientas retrospectivas típicas de
    sistemas de soporte de decisión.

    Las herramientas de Data Mining pueden responder a
    preguntas de negocios que tradicionalmente consumen demasiado
    tiempo para poder ser
    resueltas y a los cuales los usuarios de esta información
    casi no están dispuestos a aceptar. Estas herramientas
    exploran las bases de datos en busca de patrones ocultos,
    encontrando información predecible que un experto no puede
    llegar a encontrar porque se encuentra fuera de sus
    expectativas.

    Una vez que las herramientas de Data Mining fueron
    implementadas en computadoras cliente servidor de alto
    performance o de procesamiento paralelo, pueden analizar bases de
    datos masivas para brindar respuesta a preguntas tales como,
    "¿Cuáles clientes tienen
    más probabilidad de
    responder al próximo mailing promocional, y por
    qué? y presentar los resultados en formas de tablas, con
    gráficos, reportes, texto,
    hipertexto, etc.

    Las técnicas de Data Mining pueden ser
    implementadas rápidamente en plataformas ya existentes de
    software y
    hardware para
    acrecentar el valor de las
    fuentes de
    información existentes y pueden ser integradas con
    nuevos productos y
    sistemas pues son traídas en línea
    (on-line).

    3. El Alcance del Data
    Mining

    Dadas bases de datos de suficiente tamaño y
    calidad, la
    tecnología de Data Mining puede generar nuevas
    oportunidades de negocios al proveer estas
    capacidades:

    Predicción automatizada de tendencias y
    comportamientos.

    Data Mining automatiza el proceso de encontrar
    información predecible en grandes bases de datos.
    Preguntas que tradicionalmente requerían un intenso
    análisis manual, ahora
    pueden ser contestadas directa y rápidamente desde los
    datos. Un típico ejemplo de problema predecible es el
    marketing
    apuntado a objetivos
    (targeted marketing).
    Data Mining usa datos en mailing promocionales anteriores para
    identificar posibles objetivos para
    maximizar los resultados de la inversión en futuros mailing. Otros
    problemas
    predecibles incluyen pronósticos de problemas
    financieros futuros y otras formas de incumplimiento, e
    identificar segmentos de población que probablemente respondan
    similarmente a eventos dados.

    Descubrimiento automatizado de modelos previamente
    desconocidos.

    Las herramientas de Data Mining barren las bases de
    datos e identifican modelos previamente escondidos en un
    sólo paso. Otros problemas de descubrimiento de modelos
    incluye detectar transacciones fraudulentas de tarjetas de
    créditos e identificar datos anormales que
    pueden representar errores de tipeado en la carga de
    datos.

    Las técnicas de Data Mining pueden redituar los
    beneficios de automatización en las plataformas de
    hardware y
    software
    existentes y puede ser implementadas en sistemas nuevos a medida
    que las plataformas existentes se actualicen y nuevos productos
    sean desarrollados. Cuando las herramientas de Data Mining son
    implementadas en sistemas de procesamiento paralelo de alto
    performance, pueden analizar bases de datos masivas en minutos.
    Procesamiento más rápido significa que los usuarios
    pueden automáticamente experimentar con más modelos
    para entender datos complejos. Alta velocidad hace
    que sea práctico para los usuarios analizar inmensas
    cantidades de datos. Grandes bases de datos, a su vez, producen
    mejores predicciones.

    Las bases de datos pueden ser grandes tanto en
    profundidad como en ancho:

    Más columnas. Los analistas muchas veces deben
    limitar el número de variables a examinar cuando realizan
    análisis manuales debido a
    limitaciones de tiempo. Sin embargo, variables que son
    descartadas porque parecen sin importancia pueden proveer
    información acerca de modelos desconocidos. Un Data Mining
    de alto rendimiento permite a los usuarios explorar toda la base
    de datos, sin preseleccionar un subconjunto de
    variables.

    Más filas. Muestras mayores producen menos
    errores de estimación y desvíos, y permite a los
    usuarios hacer inferencias acerca de pequeños pero
    importantes segmentos de población.

    ¿Cómo Trabaja el Data Mining?

    ¿Cuán exactamente es capaz Data Mining de
    decirle cosas importantes que usted desconoce o que van a pasar?
    La técnica usada para realizar estas hazañas en
    Data Mining se llama Modelado. Modelado es simplemente el acto de
    construir un modelo en una situación donde usted conoce la
    respuesta y luego la aplica en otra situación de la cual
    desconoce la respuesta. Por ejemplo, si busca un galeón
    español
    hundido en los mares lo primero que podría hacer es
    investigar otros tesoros españoles que ya fueron
    encontrados en el pasado. Notaría que esos barcos
    frecuentemente fueron encontrados fuera de las costas de Bermuda
    y que hay ciertas características respecto de las corrientes
    oceánicas y ciertas rutas que probablemente tomara el
    capitán del barco en esa época. Usted nota esas
    similitudes y arma un modelo que incluye las características comunes a todos los sitios
    de estos tesoros hundidos. Con estos modelos en mano sale a
    buscar el tesoro donde el modelo indica que en el pasado hubo
    más probabilidad de
    darse una situación similar. Con un poco de esperanza, si
    tiene un buen modelo, probablemente encontrará el
    tesoro.

    Este acto de construcción de un modelo es algo que la
    gente ha estado haciendo desde hace mucho tiempo, seguramente
    desde antes del auge de las computadoras y de la
    tecnología de Data Mining. Lo que ocurre en las
    computadoras, no es muy diferente de la manera en que la gente
    construye modelos. Las computadoras son cargadas con mucha
    información acerca de una variedad de situaciones donde
    una respuesta es conocida y luego el software de Data Mining en
    la computadora
    debe correr a través de los datos y distinguir las
    características de los datos que llevarán al
    modelo. Una vez que el modelo se construyó, puede ser
    usado en situaciones similares donde usted no conoce la
    respuesta.

    Si alguien le dice que tiene un modelo que puede
    predecir el uso de los clientes,
    ¿Cómo puede saber si es realmente un buen modelo?
    La primera cosa que puede probar es pedirle que aplique el modelo
    a su base de clientes – donde usted ya conoce la respuesta. Con
    Data Mining, la mejor manera para realizar esto es dejando de
    lado ciertos datos para aislarlos del proceso de Data Mining. Una
    vez que el proceso está completo, los resultados pueden
    ser testeados contra los datos excluidos para confirmar la
    validez del modelo. Si el modelo funciona, las observaciones
    deben mantenerse para los datos excluidos.

    4. Arquitectura para
    Data Mining

    Para aplicar mejor estas técnicas avanzadas,
    éstas deben estar totalmente integradas con el data
    warehouse así como con herramientas flexibles e
    interactivas para el análisis de negocios. Varias
    herramientas de Data Mining actualmente operan fuera del
    warehouse, requiriendo pasos extra para extraer, importar y
    analizar los datos. Además, cuando nuevos conceptos
    requieren implementación operacional, la integración con el warehouse simplifica la
    aplicación de los resultados desde Data Mining. El Data
    warehouse analítico resultante puede ser aplicado para
    mejorar procesos de negocios en toda la
    organización, en áreas tales como manejo de
    campañas promocionales, detección de fraudes,
    lanzamiento de nuevos productos, etc.

    El punto de inicio ideal es un data warehouse que
    contenga una combinación de datos de seguimiento interno
    de todos los clientes junto con datos externos de mercado acerca de
    la actividad de los competidores. Información
    histórica sobre potenciales clientes también provee
    una excelente base para prospecting. Este warehouse puede ser
    implementado en una variedad de sistemas de bases relacionales y
    debe ser optimizado para un acceso a los datos flexible y
    rápido.

    Un server multidimensional OLAP permite que un modelo de
    negocios más sofisticado pueda ser aplicado cuando se
    navega por el data warehouse. Las estructuras
    multidimensionales permiten que el usuario analice los datos de
    acuerdo a como quiera mirar el negocio – resumido por
    línea de producto, u otras perspectivas claves para su
    negocio. El server de Data Mining debe estar integrado con el
    data warehouse y el server OLAP para insertar el análisis
    de negocios directamente en esta infraestructura. Un avanzado,
    metadata centrado en procesos define los objetivos del Data
    Mining para resultados específicos tales como manejos de
    campaña, prospecting, y optimización de
    promociones. La integración con el data warehouse permite
    que decisiones operacionales sean implementadas directamente y
    monitoreadas. A medida que el data warehouse crece con nuevas
    decisiones y resultados, la organización puede "minar" las mejores
    prácticas y aplicarlas en futuras decisiones.

    Este diseño representa una transferencia
    fundamental desde los sistemas de soporte de decisión
    convencionales. Más que simplemente proveer datos a los
    usuarios finales a través de software de consultas y
    reportes, el server de Análisis Avanzado aplica los
    modelos de negocios del usuario directamente al warehouse y
    devuelve un análisis proactivo de la información
    más relevante. Estos resultados mejoran los metadatos en
    el server OLAP proveyendo una estrato de metadatos que representa
    una vista fraccionada de los datos. Generadores de reportes,
    visualizadores y otras herramientas de análisis pueden ser
    aplicadas para planificar futuras acciones y
    confirmar el impacto de esos planes.

    Por qué usar Data Mining?

    Sin duda alguna que el uso de Data Mining:

    Contribuye a la toma de
    decisiones tácticas y estratégicas
    proporcionando un sentido automatizado para identificar
    información clave desde volúmenes de datos
    generados por procesos tradicionales y de e-Business.

    Permite a los usuarios dar prioridad a decisiones y
    acciones
    mostrando factores que tienen un mayor en un objetivo,
    qué segmentos de clientes son desechables y qué
    unidades de negocio son sobrepasados y por qué.

    Proporciona poderes de decisión a los usuarios
    del negocio que mejor entienden el problema y el entorno y es
    capaz de medir la acciones y los resultados de la mejor
    forma.

    Genera Modelos descriptivos : En un contexto de
    objetivos definidos en los negocios permite a empresas, sin
    tener en cuenta la industria o el
    tamaño, explorar automáticamente, visualizar y
    comprender los datos e identificar patrones, relaciones y
    dependencias que impactan en los resultados finales de la cuenta
    de resultados (tales como el aumento de los ingresos,
    incremento de los beneficios, contención de costes y
    gestión
    de riesgos)

    Genera Modelos predictivos: permite que relaciones no
    descubiertas e identificadas a través del proceso del Data
    Mining sean expresadas como reglas de negocio o modelos
    predictivos. Estos outputs pueden comunicarse en formatos
    tradicionales (presentaciones, informes,
    información electrónica compartida, embebidos en
    aplicaciones,…) para guiar la estrategia y
    planificación de la
    empresa.

    Data mining vs estadística

    Esta investigación pretende explicar las
    diferencias de data mining y estadística desde una perspectiva
    constructiva en el uso de ambas herramientas analíticas y
    bajo un contexto empresarial.

    Ambas ciencias
    tienen el mismo objetivo: mejorar la toma de
    decisiones mediante un conocimiento del entorno. Este entorno
    lo facilitan los datos almacenados en la compañía,
    cuantitativos o cualitatitativos y mediante información de
    terceras empresas.

    El data mining aventaja a la estadística en los
    siguientes supuestos:

    Las técnicas estadísticas se centran
    generalmente en técnicas confirmatorias, mientras que las
    técnicas de data mining son generalmente exploratorias.
    Así, cuando el problema al que pretendemos dar respuesta
    es refutar o confirmar una hipótesis, podremos utilizar ambas ciencias
    –diferentes conclusiones y más robusta la
    estadística. Sin embargo, cuando el objetivo es meramente
    exploratorio (para concretar un problema o definir cuales son las
    variables más interesantes en un sistema de
    información) surge la necesidad de delegar parte del
    conocimiento analítico de la empresa en
    técnicas de aprendizaje
    (inteligencia
    artificial), utilizando data mining. Aquí hemos
    detectado una primera diferencia de aplicación de ambas
    herramientas: data mining se utilizará cuando no partamos
    de supuestos de partida y pretendamos buscar algún
    conocimiento nuevo y susceptible de proporcionar
    información novedosa en la toma de decisiones.

    A mayor dimensionalidad del problema el data mining
    ofrece mejores soluciones.
    Cuantas más variables entran en el problema, más
    difícil resulta encontrar hipótesis de
    partida interesantes. O, aun cuando pudiera, el tiempo necesario
    no justificara la inversión. En ese caso, utilizar
    técnicas de data mining como árboles de
    decisión nos permitirá encontrar relaciones
    inéditas para luego concretar la investigación
    sobre las variables más interesantes.

    Las técnicas de data mining son menos
    restrictivas que las estadistas. Una vez encontrado un punto de
    partida interesante y dispuestos a utilizar algún
    análisis estadístico en particular (por ejemplo,
    discriminante para diferenciar segmentos de mercado), puede
    suceder que los datos no satisfagan los requerimientos del
    análisis estadístico. Entonces, las variables
    deberán ser examinadas para determinar que tratamiento
    permite adecuarlas al análisis, no siendo posible o
    conveniente en todos los casos. Aquí también
    destaca el data mining, puesto que es menos restrictivo que la
    estadística y permite ser utilizado con los mínimos
    supuesto posibles (permite ‘escuchar’ a los
    datos).

    Cuando los datos de la empresa son
    muy ‘dinámicos’ las técnicas de data
    mining inciden sobre la inversión y la
    actualización del conocimiento de nuestro negocio. Un
    almacén
    de datos poco ‘dinámico’ permite que una
    inversión en un análisis estadístico quede
    justificada –personal
    cualificado en estadística, metodología rígida y respuestas a
    preguntas muy concretas- dado que las conclusiones van a tener un
    ciclo de vida
    largo. Sin embargo, en un almacén
    ‘muy dinámico’ las técnicas de data
    mining permiten explorar cambios y determinar cuando una regla de
    negocio ha cambiado. Permitiendo abordar diferentes cuestiones a
    corto/medio plazo.

    Expongamos ahora aquellos contextos en los que es
    más adecuado el análisis estadístico que el
    de data mining:

    El objetivo de la investigación es encontrar
    causalidad. Si se pretende determinar cuales son las causas de
    ciertos efectos (por ejemplo, si invertir más en la
    publicidad de
    cierto producto tiene como consecuencia un incremento de ventas o
    si es más determinante el ofrecer un descuento a los
    clientes), deberemos utilizar técnicas de
    estadística (por ejemplo, ecuaciones
    estructurales). Las relaciones complejas que subyacen a
    técnicas de data mining impiden una interpretación
    certera de diagramas
    causa-efecto.

    Se pretende generalizar sobre poblaciones desconocidas
    en su globalidad. Si las conclusiones han de ser extensibles a
    otros elementos de poblaciones similares habrán de
    utilizarse técnicas de inferencia estadística. Esto
    viene relacionado con situaciones en las que se dispone
    exclusivamente de muestras (con el consiguiente problema de
    aportar validez a las muestras). En data mining, se
    generarán modelos y luego habrán de validarse con
    otros casos conocidos de la población, utilizando como
    significación el ajuste de la predicción sobre una
    población conocida (es lo habitual cuando queremos
    predecir perfiles de clientes, que ya disponemos de antecedentes
    para poder
    validarlo, aunque no siempre es posible acceder a dicha
    información o no siempre es correcto aplicar ciertas
    muestras).

    Se ha detallado algunos argumentos acerca de cuando es
    conveniente utilizar data mining o estadística. Llegado a
    este punto deseamos destacar que ambas perspectivas constituyen
    una sinergia y que
    no son excluyentes una de la otra. En este sentido, la metodología de un proyecto de data
    mining ha de contener referencias a la estadística en dos
    partes destacables del proceso:

    Preparación de los datos (tratamiengo de valores
    erroreos, valores omitidos,…) y aproximación a las
    variables de estudio,

    Despliegue del proyecto y
    posible generación de hipótesis a refutar con una
    metodología y técnica
    estadística.

    Así pues, data mining y estadística son
    técnicas complementarias que permiten obtener conocimiento
    inédito en nuestros almacenes de
    datos o dar respuestas a cuestiones concretas de
    negocio.

    Mercadeo y Data Mining

    Esta década final del segundo milenio, termina
    con un avance sorprendente en el manejo electrónico de
    datos. Cada día, millones de personas llegan a sus empleos
    presenciales o en línea y durante horas digitan en sus
    computadores, billones de bytes que registran las transacciones
    comerciales que reflejan el pulso de las economías del
    mundo. Hace tan solo unos años, los datos de las empresas
    estaban orientados principalmente a alimentar sus sistemas
    contables, financieros, de inventarios, de
    producción, de recursos
    humanos y de ventas. En la medida que los negocios mundiales
    se hicieron más competitivos y complejos, los datos cada
    vez cobraron más vida y se convirtieron en
    información vital para la toma de decisiones de los
    gerentes. Las revoluciones de finales de este siglo,
    científica, económica, política y
    tecnológica, sumadas a la revisión de los conceptos
    de soberanía de las naciones, han vuelto los
    mercados
    impredecibles. La sociedad de masas
    creada por la revolución
    industrial se ha fragmentado en miles de pedazos. El consumidor
    empieza a tener rostro y la diversidad prevaleciente en el
    mercado le ha cambiado el rostro al Mercadeo.

    Entender al nuevo consumidor es una
    tarea cada vez más compleja, pues la antigua noción
    de desarrollar un producto e inducir su compra a un cliente potencial
    desprevenido mediante el uso de la publicidad masiva
    ya murió. Para cada producto o servicio hay
    numerosas opciones de mercados meta
    posibles. Seleccionar el mercado y luego segmentarlo es una tarea
    titánica. Ya no se puede decir como antes que los mejores
    clientes potenciales son las mujeres entre los dieciocho y los
    cuarenta y nueve años, la gente de la generación X
    o la gente que se parece a nuestros consumidores actuales. Tras
    la aparente similitud existe toda una heterogeneidad derivada de
    las diferencias en educación,
    ocupación, ingresos, etnias,
    culturas, estilos de vida, percepciones, necesidades y
    deseos.

    Si trabajamos en un conglomerado bancario, una
    compañía de gas domiciliario
    a gran escala, un
    proveedor globalizado de servicios de
    telecomunicación, una compañía de seguros a nivel
    mundial líder
    en sus mercados o en negocios que son destinos de
    categorías como Wall-Mart o similares, entonces
    almacenamos grandes cantidades de información y queremos
    agregarles valor, por lo tanto estaremos interesados en
    automatizar el proceso de información y descubrir
    información valiosa que de otra forma seguirá
    siendo subutilizada o simplemente desperdiciada. Empecemos pues a
    cavar y a construir un túnel en su escenario de mercadeo. Este
    sistema de excavación se denomina Data Mining y es la
    aplicación de las técnicas de la inteligencia
    artificial (redes neurales, algoritmos
    genéticos, lógica
    fuzzy, etc.) a grandes cantidades de datos para descubrir
    relaciones, tendencias y trayectorias ocultas con el
    propósito de convertir estos resultados en planes de
    negocios ejecutables como redireccionar los esfuerzos de mercadeo
    o evaluar los centros de utilidades, etc.

    Hacer Mercadeo con Base de Datos con Data Mining
    además de una alta inversión económica
    (aunque puede reducirse haciendo outsourcing),
    requerirá la integración de tres componentes
    fundamentales:

    • La información almacenada actualmente, mucha
      de ella proveniente de sus sistemas de
      información que interactuan con el
      cliente
    • Técnicas estadísticas o instrumentos
      que usen modelos predictivos
    • Equipos sofisticados de
      presentación

    Una aplicación, por ejemplo, es implementar un
    proceso que genere una muy precisa segmentación de los clientes. Una vez que
    el motor del
    Excavador de Datos ha seleccionado un grupo adecuado de segmentos
    de clientes de su Bodega de Datos (DataWarehouse),
    el próximo paso será extrapolar los perfiles de los
    consumidores. Cada vez que llega una nueva cosecha de clientes se
    aplica un nuevo conjunto de modelos estadísticos y se
    corre el programa para
    comparar contra los segmentos existentes o crear otros nuevos.
    Aquí estamos enfocando la atención a predecir la lealtad de marca, para citar
    un ejemplo, pero tenemos muchas otras aplicaciones como
    son:

    1. Segmentación del mercado
    2. Tendencias de deserción de
      clientes
    3. Descubrimiento de transacciones
      fraudulentas
    4. Mercadeo directo
    5. Mercadeo Interactivo
    6. Análisis de canasta
    7. Análisis de tendencias
    8. Perfiles de clientes

    Focalización de clientes y campañas
    promocionales

    El Mercadeo mediante Excavación de Datos,
    convierte una plataforma tecnológica en un sistema de
    información sobre el que se construyen soluciones de
    negocios. Naturalmente el punto de partida es que las
    montañas de datos deben ser de oro y no de chatarra. De lo
    contrario no vale la pena excavar. Se necesitarán equipos
    de computo, sistemas
    operativos y la infraestructura necesaria para apoyar ese
    proyecto minero. Luego vendrán las técnicas de
    inteligencia artificial y de análisis estadístico
    que permitirán extraer el oro de su mina. El primer paso
    es evaluar los recursos,
    objetivos y necesidades. Dependiendo de esto se definirá
    si tecnológicamente el énfasis será por
    ejemplo hacia procesos cliente-servidor y de
    escritorio o hacia procesos en paralelo.

    5. El Data Mining y los
    procesos de venta

    El "Data Mining" integra los procesos modernos de
    Ventas, excepto el "Key Account Management" que representa la
    versión unitaria ( no masiva ) del manejo de Cuentas Clave, en
    lo cual se pueden aplicar algunas técnicas que
    señalamos a continuación:

    1.-El "Cross Selling": Esta técnica se basa en el
    Mercadeo Concéntrico, éso es, en múltiples
    ofertas alrededor de un mismo cliente. A mayor cantidad de
    transacciones o relaciones que sostenga una Cuenta con nosotros,
    mayor será la capacidad de la Empresa de
    retenerla con el paso del tiempo. Este "Cruce de Productos" puede
    ser Personal o
    Masivo. Cada uno requiere de la segmentación de la Clientela para adaptar
    la oferta a las
    necesidades del Cliente o grupo de éstos y de la
    existencia de alguna Matríz PPC que identifique
    cuáles Productos se le han colocado a cuáles
    Clientes ( y cuáles no ) para facilitar eventuales
    ofertas.

    2.-El "Networking":
    Cada Cliente puede ser una Fuente de Negocios adicionales, pero
    existen siempre evidentes "Multiplicadores" que por su naturaleza o
    poder de convocatoria aglutinan números importantes de
    clientes potenciales. Esta técnica busca crear redes de cuentas
    potenciales alrededor de una sola matriz
    Internamente, en nuestra Clientela o "C-Base" existen normalmente
    varias de éstas y en el Mercado tantas más. Por
    ejemplo: Pueden ser nuestros Clientes los empleados de ellos, sus
    propios Clientes, sus Proveedores,
    Afiliados, etc.

    Las diversas aplicaciones del data mining

    Para Comunicarnos con nuestra Base de Clientes y
    Prospectos de manera Directa y Masiva ( Cumpleaños,
    Lanzamientos, Cobros )

    Para contribuir en la Conservación de
    Clientes existentes

    Para Vender otros Productos ( Cross Selling ) a
    nuestra Base de Clientes y elevar el P.P.C.

    Para Capturar nuevos Clientes con Tele o
    Web-Marketing

    Data Mining en el CRM

    En el entorno "CRM" se puede
    evaluar y desarrollar un conjunto de reglas de negocio sobre
    todos los aspectos de las interacciones de los clientes. Un
    ejemplo sencillo sería modelar la probabilidad de
    respuesta ante una solicitud específica de un nuevo
    producto o servicio.
    Basándose en estas reglas las campañas de marketing
    de una empresa
    pueden tener como objetivo la máxima respuesta para
    generar un nivel deseado de respuesta, ingresos o beneficios.
    Otras aplicaciones incluirían:

    • Crear modelos de clientes potenciales (para objetivos
      de marketing y otras iniciaticas CRM).
    • Analizar la pérdida de clientes (para atención al
      cliente y reclamaciones).
    • Monotorizar los riesgos de
      pérdida (para scoring de clientes y aprobación de
      créditos).
    • Investigación del fraude (para
      reducir pérdidas a través de la
      investigación del fraude).

    Sin embargo, como se dijo anteriormente el alcance de la
    tecnología del Data Mining llega mucho más
    allá del "CRM" e incluye cualquier proceso que lleva la
    adquisición, interpretación y actualización
    en los datos (bien de origen interno o externo).

    At systems y Data mining

    Data Mining dentro de una Arquitectura Data
    Warehousing

    El servicio de DataMining de AT Systems extiende la
    visión técnica de la arquitectura DataWarehousing,
    proporcionando una mayor profundidad a los analistas del negocio.
    Mientras que la mayoría de las capacidades del Business
    Intelligence (BI) se focalizan en la presentación de
    resultados de negocio, el Data Mining se concentra en el
    descubrimiento automatizado y valoración de la
    interrelación de resultados de negocio. Responde a las
    preguntas de "¿Qué?" para ayudar a los negocios a
    comprender el "¿Por qué?" y el "¿Qué
    pasaría si?". Ya que los usuarios analizan los resultados
    de los objetivos del negocio, tienen acceso a todas las medidas
    asociadas. DataMining identifica cuales de esas medidas tienen
    una fuerte correlación con el objetivo final y deben ser
    monitorizadas para mantener el curso del negocio. Determinar los
    factores clave significa diseño de reports y cubos
    multi-dimensionales, particularmente para actividades de
    funcionalidades cruzadas para objetivos de "qué
    pasaría sí" y planificación.

    Cuestiones Tecnológicas
    Las soluciones que aporta el Data Mining están basadas en
    la implementación, a través de la programación, de interfaces de uso general
    y algoritmos propios y disponibles para todos que permiten una
    eficiente exploración y organización de los datos. Estos algoritmos
    apoyan la identificación de patrones, relaciones y
    anomalías de interés
    potencial para los que toman las decisiones en los negocios.
    Además de implementar estos algoritmos en un método
    accesible para el usuario la tecnología del Data Mining
    requiere una comprensión de varias bases de datos e
    implementación de soluciones de Data Mining para
    aprovechar las características de dichas bases de datos
    (si hay alguna) y que hacen que las tareas del Data Mining sean
    más eficientes en grandes volúmenes de datos.
    Además de las implementaciones de algoritmos,
    consideraciones claves relativas al Data Mining serían la
    preparación de datos y el asegurar la escalabilidad y
    rendimiento en grandes volúmenes de datos.

    Ventajas de nuestra solución:

    • Ciclo rápido de desarrollo (2-3
      meses)
    • Integración con la arquitectura DataWarehouse
    • Uso de muestras o de grandes volúmenes de
      datos
    • Uso de tecnología líder
      en Data Mining.

    Componentes del servicio de DataMining
    El servicio de Data Mining de AT Systems consiste en:

    • Preparación de datos
    • Knowledge Studio
    • Analytical Calculator
    • Sagent

    6.
    Conclusiones

    Un Sistema Datamining nos permite analizar factores de
    influencia en determinados procesos, predecir o estimar variables
    o comportamientos futuros, segmentar o agrupar ítems
    similares, además de obtener secuencias de eventos que
    provocan comportamientos específicos.

    La llegada del Data Mining se considera como la
    última etapa de la introducción de métodos
    cuantitativos, científicos en el mundo del comercio,
    industria y
    negocios. Desde ahora, todos los no-estadísticos -es decir
    el 99,5% de nosotros – pueden construir modelos exactos de
    algunas de sus actividades, para estudiarlas mejor, comprenderlas
    y mejorarlas.

    Anexos

    Administrador De Base De Datos

    El "Administrador de
    Base de Datos" será el responsable de mantener una Base de
    Data confiable para permitir la cabal ejecución del
    Plan de
    Mercadeo, trabajando conjuntamente con las Unidades de
    R&D y Publicidad, los Especialistas de Producto y las
    Gerencias de Areas.

    FUNCIONES:

    Parametrizar la alimentación de la
    Base de Datos por parte de los Operadores y Usuarios para
    garantizar su confiabilidad.

    Alimentar directamente la Base de Datos con aquella data
    o información que escape del dominio del
    Usuario u Operador para asegurar su representatividad y utilidad para
    fines de análisis y Mercadeo.

    Coordinar el diseño de Programas o
    Aplicaciones con el Area de Informática para preservar la
    compatibilidad de los sistemas y facilitar el uso de la Base de
    Datos.

    Depurar contínuamente la Base de Datos para
    garantizar su confiabilidad.

    Respaldar todo registro para asegurar la
    preservación de la data.

    Concientizar al Usuario sobre los usos y la utilidad de la
    Base de Datos para propiciar su máximo aprovechamiento,
    por él más amplio universo de
    Gerentes, Unidades y Ejecutivos, para fines de
    Mercadeo.

    Brindar apoyo técnico al Usuario, Operador e
    Informática respecto al manejo y mantenimiento
    de la Base de Datos para evitar inconsistencias y contaminación de la data.

    Analizar la data e información que emana
    periódicamente de la Base de Datos, "first hand",
    cruzándola con aquella que generen los estudios de
    Mercados, para conformar alertas e informes
    oportunos.

    Elaborar los Informes o Reportes que sean acordados por
    la Gerencia de
    Mercadeo, o aquellos que le sean solicitados, de acuerdo al
    Calendario aprobado, con el propósito de informar a las
    Gerencias oportunamente y documentar el Plan Operativo
    anual.

    Distribuir los Reportes a los Usuarios de acuerdo a las
    necesidades, usos y fines de cada uno.

    INFORMES:

    Matriz de Clientes y Productos por Ejecutivo de Cuentas:
    Mensual

    Reporte Previo ( Alerta de índices como PPC, GPM
    y variaciones ): Mensual

    "Client Turnover": Semanal

    Trabajo elaborado por

    Elymir Urdaneta

    Caracas Venezuela

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter