Estadística moderna en estudios relacionados con el cambio climático (página 2)

Partes: 1, 2

Métodos para encontrar clusters
Cluster jerárquico. Se parte de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos clusters siguiendo algún criterio especificado, hasta obtener un único cluster con todos los datos

Criterios de optimización. Producen una partición de los objetos en un número especificado de grupos siguiendo un criterio de optimización. El más conocido es k-MEDIAS
En general, se busca HOMOGENEIDAD dentro de los grupos y HETEROGENEIDAD entre grupos
Planteamiento del problema

Monografias.com

Planteamiento del problema
¿Podemos utilizar las técnicas habituales del análisis multivariante para encontrar los clusters?
Observamos series temporales y queremos clasificarlas en grupos o “CLUSTERS”

Monografias.com

Procedimientos cluster tradicionales ignoran la estructura de autocorrelación de la serie y no proporcionan buenos resultados

Necesidad de desarrollar nuevos procedimientos cluster para series temporales

Algunos trabajos previos se basan en los modelos que generan las observaciones, o en el último dato observado

El problema se complica mucho más con SERIES TEMPORALES MULTIVARIANTES, cuando observamos más de una variable para cada individuo a lo largo del tiempo
Planteamiento del problema

Monografias.com

Planteamiento del problema
Observamos SERIES TEMPORALES MULTIVARIANTES y queremos clasificarlas en grupos o “CLUSTERS”
Proyectamos en el futuro
(Gp:) X
(Gp:) X
(Gp:) X
(Gp:) X
(Gp:) X
(Gp:) X
(Gp:) n
(Gp:) h
(Gp:) T
(Gp:) p
(Gp:) n
(Gp:) h
(Gp:) T
(Gp:) 2
(Gp:) n
(Gp:) h
(Gp:) T
(Gp:) 1
(Gp:) 1
(Gp:) h
(Gp:) T
(Gp:) p
(Gp:) 1
(Gp:) h
(Gp:) T
(Gp:) 2
(Gp:) 1
(Gp:) h
(Gp:) T
(Gp:) 1
(Gp:) ˆ
(Gp:) ˆ
(Gp:) ˆ
(Gp:) ˆ
(Gp:) ˆ
(Gp:) ˆ
(Gp:) )
(Gp:) (
(Gp:) ,
(Gp:) )
(Gp:) (
(Gp:) ,
(Gp:) )
(Gp:) (
(Gp:) ,
(Gp:) )
(Gp:) (
(Gp:) ,
(Gp:) )
(Gp:) (
(Gp:) ,
(Gp:) )
(Gp:) (
(Gp:) ,
(Gp:) +
(Gp:) +
(Gp:) +
(Gp:) +
(Gp:) +
(Gp:) +
(Gp:) L
(Gp:) M
(Gp:) O
(Gp:) M
(Gp:) M
(Gp:) L

Monografias.com

En muchas situaciones en la vida real, estamos interesados en las PREDICCIONES en un momento específico del futuro
Los resultados, en general, serán diferentes
Planteamiento del problema
Futuro
Modelo
Presente

Monografias.com

En muchas situaciones en la vida real, estamos interesados en las PREDICCIONES en un momento específico del futuro
Planteamiento del problema
Fuente: Manuel Ruiz, UAM
Daxi Village, China
(Gp:) Dam construction

Monografias.com

¿Por qué clusters de predicciones?

Se reduce la dimensionalidad del problema

Se incluye información tanto del presente como del pasado de las series

En muchos problemas, el interés real se centra en el comportamiento futuro ó en si las series convergen o no a un cierto nivel

Desarrollo sostenible
Emisiones de CO2 (Protocolo de Kyoto)
Convergencia económica
Planteamiento del problema

Monografias.com

Además, nuestro método se basa en clasificar las series por las distancias entre las DENSIDADES DE LAS PREDICCIONES, no sólo en la predicciones puntuales.

Esto permite distinguir entre situaciones donde las predicciones puntuales son similares, pero las densidades completas proporcionan más información.
Planteamiento del problema

Monografias.com

PASO 1. Calcular las densidades de predicción

PASO 2. Calcular la matriz de discrepancias entre las series (usando las densidades de predicción)

PASO 3. Aplicar análisis cluster tradicional
Metodología para clasificar series temporales

Monografias.com

PASO 1. Calcular las densidades de predicción

Si no asumimos ninguna distribución para los datos necesitamos usar métodos de remuestreo (“sieve bootstrap”) para calcular la densidad de predicción

Con el bootstrap extraemos B valores de la distribución de la predicción en el momento específico del futuro que nos interesa

Estimamos la densidad de la predicción aplicando métodos no paramétricos a los B valores bootstrap
Metodología para clasificar series temporales
Se puede desarrollar una versión más sencilla de implementar asumiendo normalidad o basando la agrupación en predicciones puntuales

Monografias.com

Metodología para clasificar series temporales
Esquema del procedimiento BOOTSTRAP

Monografias.com

PASO 2. Calcular la matriz de discrepancias (D)

Para cada par de series calculamos la distancia L2 entre las funciones de densidad de las predicciones
Metodología para clasificar series temporales
(Gp:) Estimamos cada distancia con , que se calcula a partir de los estimadores no paramétricos de las densidades de predicción usando la muestra de predicciones bootstrap

(Gp:) Hemos probado que es estimador consistente de Dij

(Gp:) Hemos hecho unas simulaciones para comparar Dij y

Monografias.com

PASO 3. Aplicar análisis cluster tradicional

La matriz de discrepancias obtenida se utiliza como input de un procedimiento cluster

Los métodos jerárquicos se pueden ejecutar conociendo sólo la MATRIZ de DISCREPANCIAS, los que se basan en criterios de optimización no nos sirven
Metodología para clasificar series temporales

Monografias.com

Enlace sencillo (single linkage): unir por la distancia al individuo más cercano del grupo

Enlace promedio (average linkage): unir por la media de las distancias a todos los individuos del grupo

Enlace completo (complete linkage): unir por la distancia al individuo más alejado del grupo

…
Criterios para unir grupos en métodos jerárquicos
Metodología para clasificar series temporales

Monografias.com

Dendograma
Los clusters están representados mediante trazos horizontales y las etapas de la fusión mediante trazos verticales
Metodología para clasificar series temporales
Tests formales, intuición (conocimiento del problema)
¿Cuántos cluster hay?
{1,2},3,{4,5}

Monografias.com

Impone límites en las emisiones de CO2 y otros cinco gases, “responsables” del calentamiento global.

Negociado en Kyoto en 1997, entra en vigor en 2005 con la ratificación de Rusia (cuando es aceptado por los países responsables del 55% de las emisiones a nivel mundial).

El objetivo es reducir al menos un 5% (respecto de los niveles de 1990) antes de 2012, pero con objetivos distintos según regiones (UE 8%, Japón 6%)

Aplicamos la técnica de CLUSTER PARA SERIES TEMPORALES para crear grupos de países con intereses comunes que puedan compartir experiencias o políticas para alcanzar las reducciones comprometidas
Protocolo de Kyoto
El caso de las emisiones de CO2

Monografias.com

Consumo eléctrico en 88 hogares argentinosSe miden 96 variables: consumo de electricidad en intervalos de 15 minutos en un día – Datos funcionales Cuesta–Albertos y Fraiman (2006) encuentran dos clusters con un método k-medias para datos funcionalesEl primer cluster tiene 33 hogares, y el segundo 55

Monografias.com

Buscamos el subconjunto de variables más pequeño posible que explique las agrupaciones de los datos que hemos encontrado, o un porcentaje alto de ellas.
Objetivo
Aplicación
Análisis exploratorio de datos. Ayuda a interpretar los cluster que se formanReducir la dimensión. Para nuevos conjuntos de datos
Es habitual que el número de variables, que no debemos confundir con la cantidad de información, sea demasiado elevado.

Monografias.com

Trataremos de eliminar variables
“RUIDOSAS”, que son las no informativas
y/o
REDUNDANTES, que no aportan información que no este contenida en otras variables
Selección de variables

Monografias.com

Encontrar los grupos con un método cluster
Seleccionar las variables
“AFTER-CLUSTER” Método de selección de variables
Proponemos un método:- consistente estadísticamente – no paramétrico – fácil de usar
El método cluster es bueno
El método cluster genera una partición del espacio

Monografias.com

Optimizing criteria
Hierarchical clustering
K-medias

Monografias.com

Cuando se elimina la información de las variables “ruidosas”. Esperamos que NO CAMBIEN los clusters
SELECCIÓN DE VARIABLES “AFTER” CLUSTER
(los datos se quedan en la misma partición)
La CLAVE está en tener en cuenta que la partición se define en el espacio de variables original, así que para reasignar los datos a los cluster no puedo eliminar variables aunque sean ruidosas EN LUGAR DE ELIMINAR VARIABLES DEBEMOS “DESACTIVARLAS”
Probamos a clasificar sólo con las variables de todos los subconjuntos posibles y elegimos el ÓPTIMO: más pequeño y que más explique

Monografias.com

Que una variable sea ruidosa significa que su DISTRIBUCIÓN DE PROBABILIDAD es la misma en todos los clusters Esto nos sugiere “cancelar” el efecto de una variable sustituyendo todos los valores que toma por la MEDIA
Desactivar variables ruidosas

Monografias.com

Resultados con datos simulados
El método para seleccionar variables funciona muy bien para eliminar variables ruidosas, pero es incapaz de detectar variables con información redundante.

Monografias.com

Ejemplo con datos simulados
Data source: Tadesse, Sha and Vannucci (2005)

Monografias.com

La extensión más natural es cambiar MEDIAS por MEDIAS CONDICIONALES
El mejor predictor de Xi basado en las variables del subconjunto
Eliminar variables redundantes
En la practica, calculamos la media condicional con una regresión no paramétrica que hace uso de la información local, de un número de VECINOS MÁS CERCANOS que tenemos que fijar
También probamos que este método de selección de variables es consistente

Monografias.com

Data source: Tadesse, Sha and Vannucci (2005)
Método basado en la media condicional
Ejemplo con datos simulados

Monografias.com

El método basado en la MEDIA CONDICIONAL sirve para eliminar las variables “RUIDOSAS” y las REDUNDANTES, pero requiere
El método basado en la MEDIA MARGINAL es más simple.
Un tamaño muestral grande para calcular la esperanza condicionada
Elegir el número adecuado de vecinos más cercanos, que es un problema sin resolver
Mucho esfuerzo computacional

Monografias.com

96 variables: consumo eléctrico en intervalos de 15 minutos en un día Un número demasiado elevado para calcular todas las posibles combinaciones
Consumo de electricidad – Datos funcionales
Data source: Cuesta–Albertos and Fraiman (2006)
Diseñamos un algoritmo de busqueda forward-backward para encontrar las “ventanas de tiempo” más relevantes para el procedimiento de cluster.

Monografias.com

Resultados con 100 permutaciones
Para calcular la media condicionada, consideramos 5, 10 and 33 vecinos más cercanos
Usar el algoritmo de la media condicionada, en lugar del de la media que es más rápido, significa reduccir del número de intervalos que caracterizan a los dos tipos de consumidores
Consumo de electricidad – Datos funcionales

Monografias.com

La elección del número de vecinos más cercanos (NN) afecta al resultado (es un problema importante que resolver)
Los resultados con 5-NN son bastante satisfactorios
Resultados con 100 permutaciones
Consumo de electricidad – Datos funcionales

Monografias.com

Los intervalos no sombreados corresponden a las variables seleccionadas
Madrugada (3:00 a 4:00)• Mañana (7:00 a 9:00) • Tarde (15:00 a 19:00)• Noche (21:00 a 24:00)
Consumo de electricidad – Datos funcionales

Monografias.com

(Gp:) Madrugada(3:00 a 4:00)
(Gp:) Data source: Cuesta–Albertos and Fraiman (2006)
(Gp:) Mañana(7:00 a 9:00)
(Gp:) Tarde(15:00 a 19:00)
(Gp:) Noche(21:00 a 24:00)

Consumo de electricidad – Datos funcionales

Monografias.com

La información redundante, especialmente de tarde y noche, queda resumida con el algoritmo de la media condicional con 5-NN

Cuando aceptamos algunos errores de clasificación, se reduce la eficiencia y deja de ser importante el comportamiento en la madrugada
Consumo de electricidad – Datos funcionales

Monografias.com

Se obtienen resultados similares para 10-NN y 33-NN
Consumo de electricidad – Datos funcionales

Partes: 1, 2

Página anterior

Volver al principio del trabajo

Página siguiente