Indice
Algoritmos genéticos: Técnicas
de optimización que usan procesos tales
como combinación genética,
mutación y selección
natural en un diseño
basado en los conceptos de evolución natural.
Análisis de series de tiempo
(time-series): Análisis de una secuencia de medidas hechas
a intervalos específicos. El tiempo es
usualmente la dimensión dominante de los datos.
Análisis prospectivo de datos: Análisis de datos que predice futuras
tendencias, comportamientos o eventos basado en
datos históricos.
Análisis exploratorio de datos: Uso de técnicas
estadísticas tanto gráficas como descriptivas para aprender
acerca de la estructura de
un conjunto de datos.
Análisis retrospectivo de datos: Análisis
de datos que provee una visión de las tendencias,
comportamientos o eventos basado en
datos históricos.
Árbol de decisión: Estructura en
forma de árbol que representa un conjunto de decisiones.
Estas decisiones generan reglas para la clasificación de
un conjunto de datos. Ver CART y CHAID.
Base de datos multidimensional: Base de datos
diseñada para procesamiento analítico on-line
(OLAP). Estructurada como un hipercubo con un eje por
dimensión.
CART Árboles
de clasificación y regresión: Una técnica de
árbol de decisión usada para la
clasificación de un conjunto da datos. Provee un conjunto
de reglas que se pueden aplicar a un nuevo (sin clasificar)
conjunto de datos para predecir cuáles registros
darán un cierto resultado. Segmenta un conjunto de datos
creando 2 divisiones. Requiere menos preparación de datos
que CHAID .
CHAID Detección de interacción
automática de Chi cuadrado: Una técnica de
árbol de decisión usada para la
clasificación de un conjunto da datos. Provee un conjunto
de reglas que se pueden aplicar a un nuevo (sin clasificar)
conjunto de datos para predecir cuáles registros
darán un cierto resultado. Segmenta un conjunto de datos
utilizando tests de chi cuadrado para crear múltiples
divisiones. Antecede, y requiere más preparación de
datos, que CART.
Clasificación: Proceso de
dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo
esté lo "más cercano" posible a otro, y grupos diferentes
estén lo "más lejos" posible uno del otro, donde la
distancia está medida con respecto a variable(s)
específica(s) las cuales se están tratando de
predecir. Por ejemplo, un problema típico de
clasificación es el de dividir una base de datos de
compañías en grupos que son lo más
homogéneos posibles con respecto a variables como
"posibilidades de crédito" con valores tales
como "Bueno" y "Malo".
Clustering (agrupamiento): Proceso de
dividir un conjunto de datos en grupos mutuamente excluyentes de
tal manera que cada miembro de un grupo
esté lo "más cercano" posible a otro, y grupos
diferentes estén lo "más lejos" posible uno del
otro, donde la distancia está medida con respecto a todas
las variables
disponibles.
Computadoras con multiprocesadores: Una computadora
que incluye múltiples procesadores
conectados por una red. Ver procesamiento
paralelo.
Data cleansing: Proceso de asegurar que todos los valores en
un conjunto de datos sean consistentes y correctamente
registrados.
Data Mining: La extracción de información predecible escondida en grandes
bases de
datos.
Data Warehouse: Sistema para el
almacenamiento y
distribución de cantidades masivas de
datos
Datos anormales: Datos que resultan de errores (por ej.:
errores en el tipeado durante la carga) o que representan eventos
inusuales.
Dimensión: En una base de datos relacional o
plana, cada campo en un registro
representa una dimensión. En una base de datos
multidimensional, una dimensión es un conjunto de
entidades similares; por ej.: una base de datos multidimensional
de ventas
podría incluir las dimensiones Producto,
Tiempo y Ciudad.
Modelo analítico: Una estructura y proceso para
analizar un conjunto de datos. Por ejemplo, un árbol de
decisión es un modelo para la
clasificación de un conjunto de datos
Modelo lineal: Un modelo
analítico que asume relaciones lineales entre una variable
seleccionada (dependiente) y sus predictores (variables
independientes).
Modelo no lineal: Un modelo analítico que no
asume una relación lineal en los coeficientes de las
variables que son estudiadas.
Modelo predictivo: Estructura y proceso para predecir
valores de
variables especificadas en un conjunto de datos.
Navegación de datos: Proceso de visualizar
diferentes dimensiones, "fetas" y niveles de una base de datos
multidimensional. Ver OLAP.
OLAP Procesamiento analítico on-line (On Line
Analitic prossesing): Se refiere a aplicaciones de bases de datos
orientadas a array que permite a los usuarios ver, navegar,
manipular y analizar bases de datos
multidimensionales.
Outlier: Un item de datos cuyo valor cae
fuera de los límites
que encierran a la mayoría del resto de los valores
correspondientes de la muestra. Puede
indicar datos anormales. Deberían ser examinados
detenidamente; pueden dar importante información.
Procesamiento paralelo: Uso coordinado de
múltiples procesadores para
realizar tareas computacionales. El procesamiento paralelo puede
ocurrir en una computadora
con múltiples procesadores o en una red de estaciones de trabajo
o PCs.
RAID: Formación redundante de discos baratos
(Redundant Array of inexpensive disks). Tecnología para el
almacenamiento
paralelo eficiente de datos en sistemas de
computadoras
de alto rendimiento.
Regresión lineal: Técnica estadística utilizada para encontrar la
mejor relación lineal que encaja entre una variable
seleccionada (dependiente) y sus predicados (variables
independientes).
2. Fundamentos del Data
Mining
Las técnicas de Data Mining son el resultado de
un largo proceso de investigación y desarrollo de
productos.
Esta evolución comenzó cuando los datos
de negocios
fueron almacenados por primera vez en computadoras,
y continuó con mejoras en el acceso a los datos, y
más recientemente con tecnologías generadas para
permitir a los usuarios navegar a través de los datos en
tiempo real. Data Mining toma este proceso de evolución
más allá del acceso y navegación
retrospectiva de los datos, hacia la entrega de
información prospectiva y proactiva. Data Mining
está listo para su aplicación en la comunidad de
negocios
porque está soportado por tres tecnologías que ya
están suficientemente maduras:
- Recolección masiva de datos
- Potentes computadoras con
multiprocesadores - Algoritmos de Data Mining
Las bases de datos comerciales están creciendo a
un ritmo sin precedentes. Un reciente estudio del META GROUP
sobre los proyectos de
Data Warehouse
encontró que el 19% de los que contestaron están
por encima del nivel de los 50 Gigabytes, mientras que el 59%
espera alcanzarlo en el segundo trimestre de 1997. En algunas
industrias, tales
como ventas al por
menor (retail), estos números pueden ser aún
mayores. MCI Telecommunications Corp. cuenta con una base de
datos de 3 terabytes + 1 terabyte de índices y overhead
corriendo en MVS sobre IBM SP2. La necesidad paralela de motores
computacionales mejorados puede ahora alcanzarse de forma
más costo – efectiva
con tecnología de computadoras con
multiprocesamiento paralelo. Los algoritmos de
Data Mining utilizan técnicas que han existido por lo
menos desde hace 10 años, pero que sólo han sido
implementadas recientemente como herramientas
maduras, confiables, entendibles que consistentemente son
más performantes que métodos
estadísticos clásicos.
En la evolución desde los datos de negocios a
información de negocios, cada nuevo paso se basa en el
previo. Por ejemplo, el acceso a datos dinámicos es
crítico para las aplicaciones de navegación de
datos (drill through applications), y la habilidad para almacenar
grandes bases de datos es crítica para Data
Mining.
Los componentes esenciales de la tecnología de
Data Mining han estado bajo
desarrollo por
décadas, en áreas de investigación como estadísticas, inteligencia
artificial y aprendizaje de
máquinas. Hoy, la madurez de estas
técnicas, junto con los motores de bases
de datos relacionales de alta performance, hicieron que estas
tecnologías fueran prácticas para los entornos de
data warehouse
actuales.
Qué es Data Mining?
Data Mining, la extracción de información
oculta y predecible de grandes bases de datos, es una poderosa
tecnología nueva con gran potencial que ayuda a las
compañías a concentrarse en la información
más importante de sus Bases de Información (Data
Warehouse).
Un Sistema
Datamining es una tecnología de soporte para usuario final
cuyo objetivo es
extraer conocimiento
útil y utilizable a partir de la información
contenida en las bases de datos de las empresas.
Cómo se desarrollan los sistemas Data
Mining?
Los sistemas Datamining se desarrollan bajo lenguajes de
última generación basados en la inteligencia
artificial y utilizan modelos
matemáticos tales como:
Redes neuronales artificiales: modelos
predecible no-lineales que aprenden a través del entrenamiento y
semejan la estructura de una red neuronal
biológica.
Arboles de decisión: estructuras de
forma de árbol que representan conjuntos de
decisiones. Estas decisiones generan reglas para la
clasificación de un conjunto de datos. Métodos
específicos de árboles
de decisión incluyen Arboles de
Clasificación y Regresión (CART: Classification And
Regression Tree) y Detección de Interacción
Automática de Chi Cuadrado (CHAI: Chi Square Automatic
Interaction Detection)
Algoritmos genéticos: técnicas de
optimización que usan procesos tales
como combinaciones genéticas, mutaciones y selección
natural en un diseño
basado en los conceptos de evolución.
Método del vecino más cercano: una
técnica que clasifica cada registro en un
conjunto de datos basado en una combinación de las clases
del/de los k registro (s) más similar/es a él en un
conjunto de datos históricos (donde k ? 1). Algunas veces
se llama la técnica del vecino k-más
cercano.
Regla de inducción: la extracción de reglas
if-then de datos basados en significado
estadístico.
Muchas de estas tecnologías han estado en uso
por más de una década en herramientas
de análisis especializadas que trabajan con
volúmenes de datos relativamente pequeños. Estas
capacidades están ahora evolucionando para integrarse
directamente con herramientas OLAP y de Data
Warehousing.
Qué son capaces de hacer las herramientas del
Data Mining?
Las herramientas de Data Mining predicen futuras
tendencias y comportamientos, permitiendo en los negocios tomar
decisiones proactivas y conducidas por un conocimiento
acabado de la información (knowledge-driven). Los
análisis prospectivos automatizados ofrecidos por un
producto
así van más allá de los eventos pasados
provistos por herramientas retrospectivas típicas de
sistemas de soporte de decisión.
Las herramientas de Data Mining pueden responder a
preguntas de negocios que tradicionalmente consumen demasiado
tiempo para poder ser
resueltas y a los cuales los usuarios de esta información
casi no están dispuestos a aceptar. Estas herramientas
exploran las bases de datos en busca de patrones ocultos,
encontrando información predecible que un experto no puede
llegar a encontrar porque se encuentra fuera de sus
expectativas.
Una vez que las herramientas de Data Mining fueron
implementadas en computadoras cliente servidor de alto
performance o de procesamiento paralelo, pueden analizar bases de
datos masivas para brindar respuesta a preguntas tales como,
"¿Cuáles clientes tienen
más probabilidad de
responder al próximo mailing promocional, y por
qué? y presentar los resultados en formas de tablas, con
gráficos, reportes, texto,
hipertexto, etc.
Las técnicas de Data Mining pueden ser
implementadas rápidamente en plataformas ya existentes de
software y
hardware para
acrecentar el valor de las
fuentes de
información existentes y pueden ser integradas con
nuevos productos y
sistemas pues son traídas en línea
(on-line).
Dadas bases de datos de suficiente tamaño y
calidad, la
tecnología de Data Mining puede generar nuevas
oportunidades de negocios al proveer estas
capacidades:
Predicción automatizada de tendencias y
comportamientos.
Data Mining automatiza el proceso de encontrar
información predecible en grandes bases de datos.
Preguntas que tradicionalmente requerían un intenso
análisis manual, ahora
pueden ser contestadas directa y rápidamente desde los
datos. Un típico ejemplo de problema predecible es el
marketing
apuntado a objetivos
(targeted marketing).
Data Mining usa datos en mailing promocionales anteriores para
identificar posibles objetivos para
maximizar los resultados de la inversión en futuros mailing. Otros
problemas
predecibles incluyen pronósticos de problemas
financieros futuros y otras formas de incumplimiento, e
identificar segmentos de población que probablemente respondan
similarmente a eventos dados.
Descubrimiento automatizado de modelos previamente
desconocidos.
Las herramientas de Data Mining barren las bases de
datos e identifican modelos previamente escondidos en un
sólo paso. Otros problemas de descubrimiento de modelos
incluye detectar transacciones fraudulentas de tarjetas de
créditos e identificar datos anormales que
pueden representar errores de tipeado en la carga de
datos.
Las técnicas de Data Mining pueden redituar los
beneficios de automatización en las plataformas de
hardware y
software
existentes y puede ser implementadas en sistemas nuevos a medida
que las plataformas existentes se actualicen y nuevos productos
sean desarrollados. Cuando las herramientas de Data Mining son
implementadas en sistemas de procesamiento paralelo de alto
performance, pueden analizar bases de datos masivas en minutos.
Procesamiento más rápido significa que los usuarios
pueden automáticamente experimentar con más modelos
para entender datos complejos. Alta velocidad hace
que sea práctico para los usuarios analizar inmensas
cantidades de datos. Grandes bases de datos, a su vez, producen
mejores predicciones.
Las bases de datos pueden ser grandes tanto en
profundidad como en ancho:
Más columnas. Los analistas muchas veces deben
limitar el número de variables a examinar cuando realizan
análisis manuales debido a
limitaciones de tiempo. Sin embargo, variables que son
descartadas porque parecen sin importancia pueden proveer
información acerca de modelos desconocidos. Un Data Mining
de alto rendimiento permite a los usuarios explorar toda la base
de datos, sin preseleccionar un subconjunto de
variables.
Más filas. Muestras mayores producen menos
errores de estimación y desvíos, y permite a los
usuarios hacer inferencias acerca de pequeños pero
importantes segmentos de población.
¿Cómo Trabaja el Data Mining?
¿Cuán exactamente es capaz Data Mining de
decirle cosas importantes que usted desconoce o que van a pasar?
La técnica usada para realizar estas hazañas en
Data Mining se llama Modelado. Modelado es simplemente el acto de
construir un modelo en una situación donde usted conoce la
respuesta y luego la aplica en otra situación de la cual
desconoce la respuesta. Por ejemplo, si busca un galeón
español
hundido en los mares lo primero que podría hacer es
investigar otros tesoros españoles que ya fueron
encontrados en el pasado. Notaría que esos barcos
frecuentemente fueron encontrados fuera de las costas de Bermuda
y que hay ciertas características respecto de las corrientes
oceánicas y ciertas rutas que probablemente tomara el
capitán del barco en esa época. Usted nota esas
similitudes y arma un modelo que incluye las características comunes a todos los sitios
de estos tesoros hundidos. Con estos modelos en mano sale a
buscar el tesoro donde el modelo indica que en el pasado hubo
más probabilidad de
darse una situación similar. Con un poco de esperanza, si
tiene un buen modelo, probablemente encontrará el
tesoro.
Este acto de construcción de un modelo es algo que la
gente ha estado haciendo desde hace mucho tiempo, seguramente
desde antes del auge de las computadoras y de la
tecnología de Data Mining. Lo que ocurre en las
computadoras, no es muy diferente de la manera en que la gente
construye modelos. Las computadoras son cargadas con mucha
información acerca de una variedad de situaciones donde
una respuesta es conocida y luego el software de Data Mining en
la computadora
debe correr a través de los datos y distinguir las
características de los datos que llevarán al
modelo. Una vez que el modelo se construyó, puede ser
usado en situaciones similares donde usted no conoce la
respuesta.
Si alguien le dice que tiene un modelo que puede
predecir el uso de los clientes,
¿Cómo puede saber si es realmente un buen modelo?
La primera cosa que puede probar es pedirle que aplique el modelo
a su base de clientes – donde usted ya conoce la respuesta. Con
Data Mining, la mejor manera para realizar esto es dejando de
lado ciertos datos para aislarlos del proceso de Data Mining. Una
vez que el proceso está completo, los resultados pueden
ser testeados contra los datos excluidos para confirmar la
validez del modelo. Si el modelo funciona, las observaciones
deben mantenerse para los datos excluidos.
4. Arquitectura para
Data Mining
Para aplicar mejor estas técnicas avanzadas,
éstas deben estar totalmente integradas con el data
warehouse así como con herramientas flexibles e
interactivas para el análisis de negocios. Varias
herramientas de Data Mining actualmente operan fuera del
warehouse, requiriendo pasos extra para extraer, importar y
analizar los datos. Además, cuando nuevos conceptos
requieren implementación operacional, la integración con el warehouse simplifica la
aplicación de los resultados desde Data Mining. El Data
warehouse analítico resultante puede ser aplicado para
mejorar procesos de negocios en toda la
organización, en áreas tales como manejo de
campañas promocionales, detección de fraudes,
lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un data warehouse que
contenga una combinación de datos de seguimiento interno
de todos los clientes junto con datos externos de mercado acerca de
la actividad de los competidores. Información
histórica sobre potenciales clientes también provee
una excelente base para prospecting. Este warehouse puede ser
implementado en una variedad de sistemas de bases relacionales y
debe ser optimizado para un acceso a los datos flexible y
rápido.
Un server multidimensional OLAP permite que un modelo de
negocios más sofisticado pueda ser aplicado cuando se
navega por el data warehouse. Las estructuras
multidimensionales permiten que el usuario analice los datos de
acuerdo a como quiera mirar el negocio – resumido por
línea de producto, u otras perspectivas claves para su
negocio. El server de Data Mining debe estar integrado con el
data warehouse y el server OLAP para insertar el análisis
de negocios directamente en esta infraestructura. Un avanzado,
metadata centrado en procesos define los objetivos del Data
Mining para resultados específicos tales como manejos de
campaña, prospecting, y optimización de
promociones. La integración con el data warehouse permite
que decisiones operacionales sean implementadas directamente y
monitoreadas. A medida que el data warehouse crece con nuevas
decisiones y resultados, la organización puede "minar" las mejores
prácticas y aplicarlas en futuras decisiones.
Este diseño representa una transferencia
fundamental desde los sistemas de soporte de decisión
convencionales. Más que simplemente proveer datos a los
usuarios finales a través de software de consultas y
reportes, el server de Análisis Avanzado aplica los
modelos de negocios del usuario directamente al warehouse y
devuelve un análisis proactivo de la información
más relevante. Estos resultados mejoran los metadatos en
el server OLAP proveyendo una estrato de metadatos que representa
una vista fraccionada de los datos. Generadores de reportes,
visualizadores y otras herramientas de análisis pueden ser
aplicadas para planificar futuras acciones y
confirmar el impacto de esos planes.
Por qué usar Data Mining?
Sin duda alguna que el uso de Data Mining:
Contribuye a la toma de
decisiones tácticas y estratégicas
proporcionando un sentido automatizado para identificar
información clave desde volúmenes de datos
generados por procesos tradicionales y de e-Business.
Permite a los usuarios dar prioridad a decisiones y
acciones
mostrando factores que tienen un mayor en un objetivo,
qué segmentos de clientes son desechables y qué
unidades de negocio son sobrepasados y por qué.
Proporciona poderes de decisión a los usuarios
del negocio que mejor entienden el problema y el entorno y es
capaz de medir la acciones y los resultados de la mejor
forma.
Genera Modelos descriptivos : En un contexto de
objetivos definidos en los negocios permite a empresas, sin
tener en cuenta la industria o el
tamaño, explorar automáticamente, visualizar y
comprender los datos e identificar patrones, relaciones y
dependencias que impactan en los resultados finales de la cuenta
de resultados (tales como el aumento de los ingresos,
incremento de los beneficios, contención de costes y
gestión
de riesgos)
Genera Modelos predictivos: permite que relaciones no
descubiertas e identificadas a través del proceso del Data
Mining sean expresadas como reglas de negocio o modelos
predictivos. Estos outputs pueden comunicarse en formatos
tradicionales (presentaciones, informes,
información electrónica compartida, embebidos en
aplicaciones,…) para guiar la estrategia y
planificación de la
empresa.
Data mining vs estadística
Esta investigación pretende explicar las
diferencias de data mining y estadística desde una perspectiva
constructiva en el uso de ambas herramientas analíticas y
bajo un contexto empresarial.
Ambas ciencias
tienen el mismo objetivo: mejorar la toma de
decisiones mediante un conocimiento del entorno. Este entorno
lo facilitan los datos almacenados en la compañía,
cuantitativos o cualitatitativos y mediante información de
terceras empresas.
El data mining aventaja a la estadística en los
siguientes supuestos:
Las técnicas estadísticas se centran
generalmente en técnicas confirmatorias, mientras que las
técnicas de data mining son generalmente exploratorias.
Así, cuando el problema al que pretendemos dar respuesta
es refutar o confirmar una hipótesis, podremos utilizar ambas ciencias
–diferentes conclusiones y más robusta la
estadística. Sin embargo, cuando el objetivo es meramente
exploratorio (para concretar un problema o definir cuales son las
variables más interesantes en un sistema de
información) surge la necesidad de delegar parte del
conocimiento analítico de la empresa en
técnicas de aprendizaje
(inteligencia
artificial), utilizando data mining. Aquí hemos
detectado una primera diferencia de aplicación de ambas
herramientas: data mining se utilizará cuando no partamos
de supuestos de partida y pretendamos buscar algún
conocimiento nuevo y susceptible de proporcionar
información novedosa en la toma de decisiones.
A mayor dimensionalidad del problema el data mining
ofrece mejores soluciones.
Cuantas más variables entran en el problema, más
difícil resulta encontrar hipótesis de
partida interesantes. O, aun cuando pudiera, el tiempo necesario
no justificara la inversión. En ese caso, utilizar
técnicas de data mining como árboles de
decisión nos permitirá encontrar relaciones
inéditas para luego concretar la investigación
sobre las variables más interesantes.
Las técnicas de data mining son menos
restrictivas que las estadistas. Una vez encontrado un punto de
partida interesante y dispuestos a utilizar algún
análisis estadístico en particular (por ejemplo,
discriminante para diferenciar segmentos de mercado), puede
suceder que los datos no satisfagan los requerimientos del
análisis estadístico. Entonces, las variables
deberán ser examinadas para determinar que tratamiento
permite adecuarlas al análisis, no siendo posible o
conveniente en todos los casos. Aquí también
destaca el data mining, puesto que es menos restrictivo que la
estadística y permite ser utilizado con los mínimos
supuesto posibles (permite ‘escuchar’ a los
datos).
Cuando los datos de la empresa son
muy ‘dinámicos’ las técnicas de data
mining inciden sobre la inversión y la
actualización del conocimiento de nuestro negocio. Un
almacén
de datos poco ‘dinámico’ permite que una
inversión en un análisis estadístico quede
justificada –personal
cualificado en estadística, metodología rígida y respuestas a
preguntas muy concretas- dado que las conclusiones van a tener un
ciclo de vida
largo. Sin embargo, en un almacén
‘muy dinámico’ las técnicas de data
mining permiten explorar cambios y determinar cuando una regla de
negocio ha cambiado. Permitiendo abordar diferentes cuestiones a
corto/medio plazo.
Expongamos ahora aquellos contextos en los que es
más adecuado el análisis estadístico que el
de data mining:
El objetivo de la investigación es encontrar
causalidad. Si se pretende determinar cuales son las causas de
ciertos efectos (por ejemplo, si invertir más en la
publicidad de
cierto producto tiene como consecuencia un incremento de ventas o
si es más determinante el ofrecer un descuento a los
clientes), deberemos utilizar técnicas de
estadística (por ejemplo, ecuaciones
estructurales). Las relaciones complejas que subyacen a
técnicas de data mining impiden una interpretación
certera de diagramas
causa-efecto.
Se pretende generalizar sobre poblaciones desconocidas
en su globalidad. Si las conclusiones han de ser extensibles a
otros elementos de poblaciones similares habrán de
utilizarse técnicas de inferencia estadística. Esto
viene relacionado con situaciones en las que se dispone
exclusivamente de muestras (con el consiguiente problema de
aportar validez a las muestras). En data mining, se
generarán modelos y luego habrán de validarse con
otros casos conocidos de la población, utilizando como
significación el ajuste de la predicción sobre una
población conocida (es lo habitual cuando queremos
predecir perfiles de clientes, que ya disponemos de antecedentes
para poder
validarlo, aunque no siempre es posible acceder a dicha
información o no siempre es correcto aplicar ciertas
muestras).
Se ha detallado algunos argumentos acerca de cuando es
conveniente utilizar data mining o estadística. Llegado a
este punto deseamos destacar que ambas perspectivas constituyen
una sinergia y que
no son excluyentes una de la otra. En este sentido, la metodología de un proyecto de data
mining ha de contener referencias a la estadística en dos
partes destacables del proceso:
Preparación de los datos (tratamiengo de valores
erroreos, valores omitidos,…) y aproximación a las
variables de estudio,
Despliegue del proyecto y
posible generación de hipótesis a refutar con una
metodología y técnica
estadística.
Así pues, data mining y estadística son
técnicas complementarias que permiten obtener conocimiento
inédito en nuestros almacenes de
datos o dar respuestas a cuestiones concretas de
negocio.
Mercadeo y Data Mining
Esta década final del segundo milenio, termina
con un avance sorprendente en el manejo electrónico de
datos. Cada día, millones de personas llegan a sus empleos
presenciales o en línea y durante horas digitan en sus
computadores, billones de bytes que registran las transacciones
comerciales que reflejan el pulso de las economías del
mundo. Hace tan solo unos años, los datos de las empresas
estaban orientados principalmente a alimentar sus sistemas
contables, financieros, de inventarios, de
producción, de recursos
humanos y de ventas. En la medida que los negocios mundiales
se hicieron más competitivos y complejos, los datos cada
vez cobraron más vida y se convirtieron en
información vital para la toma de decisiones de los
gerentes. Las revoluciones de finales de este siglo,
científica, económica, política y
tecnológica, sumadas a la revisión de los conceptos
de soberanía de las naciones, han vuelto los
mercados
impredecibles. La sociedad de masas
creada por la revolución
industrial se ha fragmentado en miles de pedazos. El consumidor
empieza a tener rostro y la diversidad prevaleciente en el
mercado le ha cambiado el rostro al Mercadeo.
Entender al nuevo consumidor es una
tarea cada vez más compleja, pues la antigua noción
de desarrollar un producto e inducir su compra a un cliente potencial
desprevenido mediante el uso de la publicidad masiva
ya murió. Para cada producto o servicio hay
numerosas opciones de mercados meta
posibles. Seleccionar el mercado y luego segmentarlo es una tarea
titánica. Ya no se puede decir como antes que los mejores
clientes potenciales son las mujeres entre los dieciocho y los
cuarenta y nueve años, la gente de la generación X
o la gente que se parece a nuestros consumidores actuales. Tras
la aparente similitud existe toda una heterogeneidad derivada de
las diferencias en educación,
ocupación, ingresos, etnias,
culturas, estilos de vida, percepciones, necesidades y
deseos.
Si trabajamos en un conglomerado bancario, una
compañía de gas domiciliario
a gran escala, un
proveedor globalizado de servicios de
telecomunicación, una compañía de seguros a nivel
mundial líder
en sus mercados o en negocios que son destinos de
categorías como Wall-Mart o similares, entonces
almacenamos grandes cantidades de información y queremos
agregarles valor, por lo tanto estaremos interesados en
automatizar el proceso de información y descubrir
información valiosa que de otra forma seguirá
siendo subutilizada o simplemente desperdiciada. Empecemos pues a
cavar y a construir un túnel en su escenario de mercadeo. Este
sistema de excavación se denomina Data Mining y es la
aplicación de las técnicas de la inteligencia
artificial (redes neurales, algoritmos
genéticos, lógica
fuzzy, etc.) a grandes cantidades de datos para descubrir
relaciones, tendencias y trayectorias ocultas con el
propósito de convertir estos resultados en planes de
negocios ejecutables como redireccionar los esfuerzos de mercadeo
o evaluar los centros de utilidades, etc.
Hacer Mercadeo con Base de Datos con Data Mining
además de una alta inversión económica
(aunque puede reducirse haciendo outsourcing),
requerirá la integración de tres componentes
fundamentales:
- La información almacenada actualmente, mucha
de ella proveniente de sus sistemas de
información que interactuan con el
cliente - Técnicas estadísticas o instrumentos
que usen modelos predictivos - Equipos sofisticados de
presentación
Una aplicación, por ejemplo, es implementar un
proceso que genere una muy precisa segmentación de los clientes. Una vez que
el motor del
Excavador de Datos ha seleccionado un grupo adecuado de segmentos
de clientes de su Bodega de Datos (DataWarehouse),
el próximo paso será extrapolar los perfiles de los
consumidores. Cada vez que llega una nueva cosecha de clientes se
aplica un nuevo conjunto de modelos estadísticos y se
corre el programa para
comparar contra los segmentos existentes o crear otros nuevos.
Aquí estamos enfocando la atención a predecir la lealtad de marca, para citar
un ejemplo, pero tenemos muchas otras aplicaciones como
son:
- Segmentación del mercado
- Tendencias de deserción de
clientes - Descubrimiento de transacciones
fraudulentas - Mercadeo directo
- Mercadeo Interactivo
- Análisis de canasta
- Análisis de tendencias
- Perfiles de clientes
Focalización de clientes y campañas
promocionales
El Mercadeo mediante Excavación de Datos,
convierte una plataforma tecnológica en un sistema de
información sobre el que se construyen soluciones de
negocios. Naturalmente el punto de partida es que las
montañas de datos deben ser de oro y no de chatarra. De lo
contrario no vale la pena excavar. Se necesitarán equipos
de computo, sistemas
operativos y la infraestructura necesaria para apoyar ese
proyecto minero. Luego vendrán las técnicas de
inteligencia artificial y de análisis estadístico
que permitirán extraer el oro de su mina. El primer paso
es evaluar los recursos,
objetivos y necesidades. Dependiendo de esto se definirá
si tecnológicamente el énfasis será por
ejemplo hacia procesos cliente-servidor y de
escritorio o hacia procesos en paralelo.
5. El Data Mining y los
procesos de venta
El "Data Mining" integra los procesos modernos de
Ventas, excepto el "Key Account Management" que representa la
versión unitaria ( no masiva ) del manejo de Cuentas Clave, en
lo cual se pueden aplicar algunas técnicas que
señalamos a continuación:
1.-El "Cross Selling": Esta técnica se basa en el
Mercadeo Concéntrico, éso es, en múltiples
ofertas alrededor de un mismo cliente. A mayor cantidad de
transacciones o relaciones que sostenga una Cuenta con nosotros,
mayor será la capacidad de la Empresa de
retenerla con el paso del tiempo. Este "Cruce de Productos" puede
ser Personal o
Masivo. Cada uno requiere de la segmentación de la Clientela para adaptar
la oferta a las
necesidades del Cliente o grupo de éstos y de la
existencia de alguna Matríz PPC que identifique
cuáles Productos se le han colocado a cuáles
Clientes ( y cuáles no ) para facilitar eventuales
ofertas.
2.-El "Networking":
Cada Cliente puede ser una Fuente de Negocios adicionales, pero
existen siempre evidentes "Multiplicadores" que por su naturaleza o
poder de convocatoria aglutinan números importantes de
clientes potenciales. Esta técnica busca crear redes de cuentas
potenciales alrededor de una sola matriz
Internamente, en nuestra Clientela o "C-Base" existen normalmente
varias de éstas y en el Mercado tantas más. Por
ejemplo: Pueden ser nuestros Clientes los empleados de ellos, sus
propios Clientes, sus Proveedores,
Afiliados, etc.
Las diversas aplicaciones del data mining
Para Comunicarnos con nuestra Base de Clientes y
Prospectos de manera Directa y Masiva ( Cumpleaños,
Lanzamientos, Cobros )
Para contribuir en la Conservación de
Clientes existentes
Para Vender otros Productos ( Cross Selling ) a
nuestra Base de Clientes y elevar el P.P.C.
Para Capturar nuevos Clientes con Tele o
Web-Marketing
Data Mining en el CRM
En el entorno "CRM" se puede
evaluar y desarrollar un conjunto de reglas de negocio sobre
todos los aspectos de las interacciones de los clientes. Un
ejemplo sencillo sería modelar la probabilidad de
respuesta ante una solicitud específica de un nuevo
producto o servicio.
Basándose en estas reglas las campañas de marketing
de una empresa
pueden tener como objetivo la máxima respuesta para
generar un nivel deseado de respuesta, ingresos o beneficios.
Otras aplicaciones incluirían:
- Crear modelos de clientes potenciales (para objetivos
de marketing y otras iniciaticas CRM). - Analizar la pérdida de clientes (para atención al
cliente y reclamaciones). - Monotorizar los riesgos de
pérdida (para scoring de clientes y aprobación de
créditos). - Investigación del fraude (para
reducir pérdidas a través de la
investigación del fraude).
Sin embargo, como se dijo anteriormente el alcance de la
tecnología del Data Mining llega mucho más
allá del "CRM" e incluye cualquier proceso que lleva la
adquisición, interpretación y actualización
en los datos (bien de origen interno o externo).
At systems y Data mining
Data Mining dentro de una Arquitectura Data
Warehousing
El servicio de DataMining de AT Systems extiende la
visión técnica de la arquitectura DataWarehousing,
proporcionando una mayor profundidad a los analistas del negocio.
Mientras que la mayoría de las capacidades del Business
Intelligence (BI) se focalizan en la presentación de
resultados de negocio, el Data Mining se concentra en el
descubrimiento automatizado y valoración de la
interrelación de resultados de negocio. Responde a las
preguntas de "¿Qué?" para ayudar a los negocios a
comprender el "¿Por qué?" y el "¿Qué
pasaría si?". Ya que los usuarios analizan los resultados
de los objetivos del negocio, tienen acceso a todas las medidas
asociadas. DataMining identifica cuales de esas medidas tienen
una fuerte correlación con el objetivo final y deben ser
monitorizadas para mantener el curso del negocio. Determinar los
factores clave significa diseño de reports y cubos
multi-dimensionales, particularmente para actividades de
funcionalidades cruzadas para objetivos de "qué
pasaría sí" y planificación.
Cuestiones Tecnológicas
Las soluciones que aporta el Data Mining están basadas en
la implementación, a través de la programación, de interfaces de uso general
y algoritmos propios y disponibles para todos que permiten una
eficiente exploración y organización de los datos. Estos algoritmos
apoyan la identificación de patrones, relaciones y
anomalías de interés
potencial para los que toman las decisiones en los negocios.
Además de implementar estos algoritmos en un método
accesible para el usuario la tecnología del Data Mining
requiere una comprensión de varias bases de datos e
implementación de soluciones de Data Mining para
aprovechar las características de dichas bases de datos
(si hay alguna) y que hacen que las tareas del Data Mining sean
más eficientes en grandes volúmenes de datos.
Además de las implementaciones de algoritmos,
consideraciones claves relativas al Data Mining serían la
preparación de datos y el asegurar la escalabilidad y
rendimiento en grandes volúmenes de datos.
Ventajas de nuestra solución:
- Ciclo rápido de desarrollo (2-3
meses) - Integración con la arquitectura DataWarehouse
- Uso de muestras o de grandes volúmenes de
datos - Uso de tecnología líder
en Data Mining.
Componentes del servicio de DataMining
El servicio de Data Mining de AT Systems consiste en:
- Preparación de datos
- Knowledge Studio
- Analytical Calculator
- Sagent
Un Sistema Datamining nos permite analizar factores de
influencia en determinados procesos, predecir o estimar variables
o comportamientos futuros, segmentar o agrupar ítems
similares, además de obtener secuencias de eventos que
provocan comportamientos específicos.
La llegada del Data Mining se considera como la
última etapa de la introducción de métodos
cuantitativos, científicos en el mundo del comercio,
industria y
negocios. Desde ahora, todos los no-estadísticos -es decir
el 99,5% de nosotros – pueden construir modelos exactos de
algunas de sus actividades, para estudiarlas mejor, comprenderlas
y mejorarlas.
Anexos
Administrador De Base De Datos
El "Administrador de
Base de Datos" será el responsable de mantener una Base de
Data confiable para permitir la cabal ejecución del
Plan de
Mercadeo, trabajando conjuntamente con las Unidades de
R&D y Publicidad, los Especialistas de Producto y las
Gerencias de Areas.
FUNCIONES:
Parametrizar la alimentación de la
Base de Datos por parte de los Operadores y Usuarios para
garantizar su confiabilidad.
Alimentar directamente la Base de Datos con aquella data
o información que escape del dominio del
Usuario u Operador para asegurar su representatividad y utilidad para
fines de análisis y Mercadeo.
Coordinar el diseño de Programas o
Aplicaciones con el Area de Informática para preservar la
compatibilidad de los sistemas y facilitar el uso de la Base de
Datos.
Depurar contínuamente la Base de Datos para
garantizar su confiabilidad.
Respaldar todo registro para asegurar la
preservación de la data.
Concientizar al Usuario sobre los usos y la utilidad de la
Base de Datos para propiciar su máximo aprovechamiento,
por él más amplio universo de
Gerentes, Unidades y Ejecutivos, para fines de
Mercadeo.
Brindar apoyo técnico al Usuario, Operador e
Informática respecto al manejo y mantenimiento
de la Base de Datos para evitar inconsistencias y contaminación de la data.
Analizar la data e información que emana
periódicamente de la Base de Datos, "first hand",
cruzándola con aquella que generen los estudios de
Mercados, para conformar alertas e informes
oportunos.
Elaborar los Informes o Reportes que sean acordados por
la Gerencia de
Mercadeo, o aquellos que le sean solicitados, de acuerdo al
Calendario aprobado, con el propósito de informar a las
Gerencias oportunamente y documentar el Plan Operativo
anual.
Distribuir los Reportes a los Usuarios de acuerdo a las
necesidades, usos y fines de cada uno.
INFORMES:
Matriz de Clientes y Productos por Ejecutivo de Cuentas:
Mensual
Reporte Previo ( Alerta de índices como PPC, GPM
y variaciones ): Mensual
"Client Turnover": Semanal
Trabajo elaborado por
Elymir Urdaneta
Caracas Venezuela