Distribuciones empíricas de frecuencias bivariadas, bidimensionales o conjuntas (página 2)
Si hacemos clic en el botón Opciones tabulares
(en inglés,
Tabular Options), o sea, en el botón amarillo de la barra
de herramientas,
observen que de las 4 opciones, las dos primeras están
seleccionadas, ellas corresponden precisamente a las dos ventanas
que salen procesadas junto con los dos gráficos. Cuando deseamos seleccionar y
procesar todas las opciones, damos clic en el botón Todos
que aparece en la parte de abajo. La tercera opción, o
sea, el Contraste (prueba, test o
dócima) de Chi-cuadrado, es la opción que nos
permite probar si las dos variables
X1 y X2 son estadísticamente
independientes, pero esta opción será analizada
después que se estudie el concepto de
independencia
y dependencia estadística entre dos variables.
La cuarta opción, o sea, Resumen
estadístico, muestra el
cálculo
de varios estadígrafos o
estadísticos que miden el grado de asociación entre
las variables. De todas estas medidas de asociación,
sólo será de nuestro interés,
el coeficiente de correlación lineal R de Pearson, el cual
será estudiado y analizado posteriormente.
Si estamos en la ventana correspondiente a la segunda
opción, es decir, la opción Tabla de frecuencias, y
hacemos clic en el botón secundario del mouse, es
decir, hacemos clic derecho, y usamos Opciones de ventana (en
inglés, Pane Options), sale un submenú con seis
opciones que son las siguientes: Porcentajes de tabla,
Porcentajes de fila, Porcentajes de columna, Frecuencias
Esperadas, Frecuencias esperadas – Frecuencias observada y
Valores
Chi-cuadrado.
La primera opción, es decir, Porcentajes de
tabla, la cual aparece siempre activada, se usa cuando se desea
calcular los porcentajes (frecuencias relativas) con respecto al
número total de observaciones o tamaño de la
muestra (n). Si esta opción se desactiva, entonces en la
tabla no aparecerán los porcentajes, y por ende, no
aparecerán las frecuencias relativas. La segunda
opción, es decir, Porcentajes de fila, se usa cuando se
desea calcular los porcentajes (frecuencias relativas) con
respecto al número total de observaciones de la fila de
esa celda, o lo que es lo mismo, con respecto a la frecuencia
absoluta marginal de la fila de esa celda. La tercera
opción, es decir, Porcentajes de columna, se usa cuando se
desea calcular los porcentajes (frecuencias relativas) con
respecto al número total de observaciones de la columna de
esa celda, o lo que es lo mismo, con respecto a la frecuencia
absoluta marginal de la columna de esa celda. La cuarta
opción, es decir, Frecuencias esperadas, se usa cuando se
desea obtener las frecuencias esperadas si las variables son
independientes. La quinta opción, es decir, Desviaciones,
se usa cuando se desea obtener las diferencias entre las
frecuencias observadas y esperadas. La sexta opción, es
decir, Valores Chi-Cuadrado, se usa cuando se desea conocer la
contribución de la celda al valor del
estadígrafo o estadístico Chi-cuadrado
(χ2) utilizado para comprobar la independencia
entre las variables. Por ejemplo, hubo 2 veces en las que
X1 es igual a 0 y X2 es igual a 1. Esto
representa el 8 % del total de 25 observaciones. Si X1
y X2 son independientes, la frecuencia esperada en esa
celda sería 0,6. Esta es una desviación de 1,4. La
contribución de la celda al valor del estadígrafo o
estadístico chi-cuadrado es 3,26667 ≈ 3,27, el cual
se calcula a partir de la expresión (frecuencia
observada-frecuencia esperada)^2/frecuencia esperada.
Representación gráfica
de las distribuciones empíricas de frecuencias bivariadas
o conjuntas de dos variables discretas.
Al igual que para el caso univariado, se pueden
representar gráficamente las distribuciones de frecuencias
(absolutas y relativas) bivariadas o conjuntas de dos variables
discretas, pero ahora como hay dos variables, los gráficos
se confeccionan usando un espacio tridimensional: dos dimensiones
para los valores de
las dos variables y otra para las frecuencias. Los tipos de
gráficos que pueden hacerse con el Statgwin son los tres
gráficos siguientes: Diagrama de
barras (en inglés, Barchart), Gráfico de Mosaico
(en inglés, Mosaico Plot) y el Gráfico (en
inglés, Skychart). El Skychart es un gráfico en
tres dimensiones, los otros no. Para obtener estos tres
gráficos con el Statgwin, se usa el botón Opciones
gráficas (botón azul) de la barra de
herramientas que aparece al lado del botón Opciones
tabulares (botón amarillo). Las opciones gráficas
son tres, las dos primeras opciones aparecen activadas, que son
los dos gráficos que salen cuando se procesa el fichero
inicialmente. La última opción corresponde al
Skychart, o sea, al gráfico en tres
dimensiones.
Contraste de Chi-cuadrado para probar
la independencia estadística de dos variables usando el
Statgwin.
Este constraste (prueba, test o dócima)
Chi-cuadrado ó χ2 permite determinar si dos
variables X1 y X2 son o no independientes.
En esta prueba o contraste, las hipótesis son:
H0: X1 y X2 son
estadísticamente independientes.
H1: X1 y X2 no son
estadísticamente independientes.
Para probar la independencia estadística de estas
dos variables X1 y X2 usando el Statgwin,
se usa la tercera opción de las Opciones tabulares, es
decir, la opción Contraste de Chi-cuadrado. En la ventana
correspondiente a esta opción, aparece el valor del
estadígrafo de prueba (Chicuadrado ó
χ2), los grados de
libertad (GL)
y el valor de probabilidad
(P-Value). Si el valor de probabilidad es mayor que el nivel de
significación de la prueba (α), entonces se acepta
H0 y de este modo demostramos que las variables
X1 y X2 son independientes. Si el valor de
probabilidad es menor que el nivel de significación de la
prueba (α), entonces se rechaza H0 y de este
modo demostramos que las variables X1 y X2
no son independientes, o lo que es lo mismo, que las variables
X1 y X2 son dependientes.
Observación: Esta
prueba o contraste Chi-cuadrado ó χ2 es una
prueba aproximada ya que su estadígrafo que se denota por
χ2 (Chi-cuadrado) sigue, bajo el supuesto de que
H0 es cierta, una distribución aproximadamente
χ2 con (k-1)(m-1) grados de libertad.
Si cada una de las variables X1 y
X2 tuviera sólo dos valores distintos o
diferentes y el tamaño de la muestra (n) fuera menor que
100, en esta misma ventana también aparecerían los
resultados de la prueba exacta de Fisher, que como su nombre
indica, es una prueba exacta, pero la misma sólo es
aplicable en ese caso particular.
Cálculo del coeficiente de
correlación lineal de dos variables usando el
Statgwin.
Para calcular el valor del coeficiente de
correlación lineal de las dos variables X1 y
X2 usando el Statgwin, se usa la cuarta opción
de las Opciones tabulares, es decir, la opción Resumen
estadístico. En la ventana correspondiente a esta
opción, aparece el valor del coeficiente de
correlación lineal R de Pearson de las dos variables
X1 y X2, el cual se conoce también
con el nombre de coeficiente de correlación lineal de las
dos variables X1 y X2, el cual fue definido
anteriormente y denotado por la letra r. Para el ejemplo que
estamos analizando, el valor de r que da el Statgwin es r =
0,6193. El valor calculado a partir de la fórmula empleada
anteriormente es r = 0,6301. Hay una pequeña diferencia
entre ambos resultados. Esta diferencia se debe a que en el
cálculo de las desviaciones típicas o
estándar, el Statgwin emplea una fórmula que, en
lugar de dividir por n, se divide por (n-1). Cuando el
tamaño de la muestra (n) es grande (generalmente mayor que
50), la diferencia es muy pequeña y puede ser despreciable
o no significativa. Sin embargo, cuando el tamaño de la
muestra (n) no es muy grande (generalmente menor que 50), la
diferencia no es pequeña y puede ser apreciable o
significativa.
Observación:
En la ventana correspondiente a la opción Resumen
estadístico, el Statgwin no nos da el valor de la
covarianza entre las variables X1 y X2,
pero usando otro procedimiento, el
Statgwin sí nos da el valor de la covarianza y el valor
del coeficiente de correlación lineal de las dos
variables. Para ello se procesan los datos del fichero
usando el siguiente procedimiento: Se ejecuta el comando Descripción, se toma la opción Datos
numéricos (primera opción) y después, en el
submenú que aparece, se toma la opción Análisis multidimensional (segunda
opción). A continuación entramos las dos variables
(X1 y X2) y procesamos (Aceptar).
Después usamos las Opciones tabulares y seleccionamos las
opciones Covarianzas y Correlaciones (sexta y cuarta
opción respectivamente).
En la ventana correspondiente a la opción
Correlaciones, aparece una tabla que muestra tres valores en la
intersección de cada par de variables diferentes. El
primer valor representa el valor del coeficiente de
correlación lineal estimado de las dos variables
involucradas. Como sabemos, el coeficiente de correlación
lineal va de -1 a +1 y mide la fuerza o
fortaleza de la relación lineal existente entre las
variables. El segundo valor, que aparece entre paréntesis,
representa el número de pares de observaciones o datos
utilizados para el cálculo de ese coeficiente de
correlación lineal. El tercer valor es un valor de
probabilidad (P-valor) que nos permite determinar la
significación estadística del verdadero coeficiente
de correlación lineal de las variables involucradas
(ρ), o sea, permite determinar si el coeficiente de
correlación lineal verdadero ρ entre esas dos
variables involucradas es estadísticamente igual a cero o
desigual de cero (es la prueba de hipótesis para
decidir entre H0: ρ = 0
σ H1: ρ ≠0).
Los valores de probabilidad (P-valores) por debajo del nivel de
significaciσn de la prueba (α), indican que hay
significaciσn estadística para el
verdadero coeficiente de correlación lineal de las
variables involucradas, o sea, ρ ≠0, y los valores por
encima del nivel de significación de la prueba (α),
indican que no hay significación estadística para
el verdadero coeficiente de correlación lineal de las
variables involucradas, o sea, ρ = 0. Para el
ejemplo que se viene analizando, como sσlo hay
dos variables, los tres valores en el orden en que aparecen en la
tabla son 0,6193, (25) y 0,0010. Por tanto, el valor del
coeficiente de correlación lineal entre las variables
X1 y X2 es 0,6193, se calculó con 25
pares de observaciones y el valor de P = 0,0010 nos indica que se
rechaza H0: ρ = 0, o sea, se acepta
H1: ρ ≠0. Por tanto,
podemos decir que existe una relaciσn o
correlación lineal significativa entre ambas
variables.
Observe que en la intersección de las mismas
variables no aparece ninguno de los tres valores vistos
anteriormente. Esto se debe a que el valor del coeficiente de
correlación lineal de una variable con ella misma es igual
a 1, independientemente del número de pares de
observaciones con que se calcule. Además, como r toma el
valor máximo (1), en la prueba o dócima de la
significación estadística de ρ, se
demuestra que siempre se cumple que ρ ≠0, y por tanto,
siempre ρ es significativo.
El valor de la covarianza se obtiene en la ventana
correspondiente a la opción Covarianzas. En esa ventana
aparece una tabla que muestra dos valores en la
intersección de cada par de variables. El primer valor
representa el valor de la covarianza estimada de las dos
variables involucradas. El segundo valor, que aparece entre
paréntesis, representa el número de pares de
observaciones o datos utilizados para el cálculo de esa
covarianza.
Observe que en la intersección de las mismas
variables, sí aparecen los dos valores vistos
anteriormente. Esto se debe a que el valor de la covarianza de
una variable con ella misma es igual a la varianza de dicha
variable. Por lo tanto, esta tabla no permite obtener las
varianzas y covarianzas de las variables.
Para el ejemplo que se viene analizando, como
sólo hay dos variables, la varianza de la variable
X1 es igual a 1,41, la varianza de la variable
X2 es igual a 0,773333 y la covarianza de las
variables X1 y X2 es igual a 0,646667.
Todas estas medidas se calcularon con 25 pares de observaciones o
datos.
Hasta aquí, el contenido presentado se ha
referido al caso en que las dos variables son cuantitativas
discretas. A continuación estudiaremos los dos restantes
casos.
Caso en que las dos variables son
cuantitativas continuas.
Se obtuvieron observaciones o datos correspondientes a
32 personas en cuanto a su edad X1 (en años) e
ingresos
mensuales X2 (en miles de pesos). Los resultados
obtenidos son los siguientes:
Observaciones o datos de las variables X1 y
X2 medidas simultáneamente
X1 | 70 | 41 | 52 | 60 | 42 | 60 | 37 | 58 | 28 | 32 | 44 | 27 | 38 | 72 | 36 | 46 |
X2 | 15 | 22 | 24 | 16 | 11 | 25 | 19 | 25 | 12 | 14 | 17 | 17 | 12 | 19 | 13 | 20 |
Continuación de la tabla de | ||||||||||||||||
X1 | 69 | 48 | 21 | 52 | 39 | 46 | 79 | 57 | 48 | 54 | 43 | 64 | 39 | 56 | 35 | 65 |
X2 | 20 | 21 | 13 | 19 | 11 | 21 | 25 | 20 | 15 | 21 | 18 | 17 | 16 | 21 | 16 | 23 |
En este caso, ambas variables son continuas. Debemos
primero construir la distribución empírica de
frecuencias para cada una de las variables por separado, luego
anotar o imprimir las clases y las marcas de
clase de la
distribución empírica de frecuencias de cada
variable, después crear en el fichero dos nuevas
variables, asignándole como datos o valores a estas
variables, las marcas de clase de los datos de las variables
originales y finalmente construir la distribución
empírica de frecuencias absolutas bivariadas o conjuntas
de estas dos nuevas variables que son discretas.
Representación
gráfica
En el caso univariado o unidimensional y para una
variable continua, las frecuencias se representaban por
áreas de rectángulos en el histograma. Ahora en el
caso bivariado o bidimensional y para dos variables continuas,
las frecuencias se representan por volúmenes de
paralelepípedos en el estereograma (histograma en el
espacio de tres dimensiones). Por lo tanto, utilizaremos la
tercera opción del botón Opciones gráficas,
es decir, la opción Gráfico
tridimensional.
Caso en que una variable es discreta
y la otra es continua
Vamos a considerar ahora este caso, en que tomaremos,
por ejemplo, como primera variable (X1), el
número de hijos (variable discreta o discontinua) de un
cierto número de familias, y como segunda variable
(X2), los ingresos mensuales (variable continua) de
dichas familias.
Como en los dos casos anteriores, la notación
sería para los valores observados:
x11, x12, x13…
x1n y x21, x22,
x23… x2n
Sea Y1 la variable cuyos valores son los
valores distintos de la variable discreta X1. Es
evidente que Y1 es una variable discreta.
Representemos a los valores de Y1 por y11,
y12, y13,…,y1
k.
Construyamos ahora la distribución
empírica de frecuencias absolutas de la variable continua
X2. Representemos a sus clases o intervalos de clase
por: y´20 – y´21,
y´21 – y´22,…, y´2
m-1 – y´2 m
Hasta este momento en la tabla de frecuencias
bivariadas, bidimensionales o conjuntas, aparecen por un lado los
valores distintos de la variable discreta X1, o sea
los valores de Y1, y por otro las clases o los
intervalos de clase de la variable continua X2
.
Sea Y2 la variable cuyos valores son las
marcas de clase de la distribución empírica de
frecuencias absolutas de la variable continua X2. Es
evidente que Y2 es una variable discreta ya que le
hemos asignado valores aislados o individuales. Representemos a
los valores de Y2 por y21, y22,
y23,…,y2 m.
Si ahora en la tabla, se sustituye a cada clase o
intervalo de clase de la variable continua, por la marca de clase
correspondiente, o sea, se sustituyen a las clases por los
valores de Y2, la tabla de frecuencias adquiere el
mismo aspecto que una tabla de frecuencias de dos variables
discretas.
Nada hay de nuevo con relación a las frecuencias
empíricas (absolutas y relativas) conjuntas, las
frecuencias (absolutas y relativas) marginales así como
las frecuencias empíricas (absolutas y relativas)
acumuladas, que son análogas a las consideradas en el caso
de dos variables discretas.
Lo diferente, en este caso, es la representación
gráfica, que, puede decirse, es una mezcla de los dos
casos anteriores.
Cálculo de las medidas de
posición y de dispersión de cada variable (una
discreta y otra continua) por separado a partir de una
distribución empírica de frecuencias (absolutas o
relativas) bivariadas de ambas variables
Para el caso en que una variable sea discreta y la otra
continua, las fórmulas de los estadígrafos de cada
variable por separado, calculados a partir de los datos agrupados
o clasificados, son las mismas que para el caso bivariado
discreto, sólo que ahora en las fórmulas de los
estadígrafos de la variable que es continua se emplean las
marcas de clase de dicha variable y las frecuencias (absolutas o
relativas) de dichas clases. Lógicamente, para la variable
que es continua, también serían cálculos
aproximados ya que estamos usando las marcas de clase de la
variable en lugar de los valores o datos verdaderos de dicha
variable.
Para el cálculo de la covarianza y el coeficiente
de correlación, las fórmulas son similares al caso
bivariado discreto, sólo que ahora en las fórmulas
de la covarianza y el coeficiente de correlación lineal,
se emplean las marcas de clase de la variable que es continua y
las frecuencias (absolutas o relativas) bivariadas o conjuntas de
los valores de la variable discreta Y1 y las marcas de
clase de la variable continua. Lógicamente, también
serían cálculos aproximados.
CONCLUSIONES
Con el desarrollo de
la presente metodología, arribamos a:
- El tratamiento teórico dado a los contenidos
ofrece ventajas para los estudiantes en la asimilación
de los mismos. - Los resultados obtenidos en las Prácticas de
Laboratorio,
nos permite aseverar lo provechoso del uso de paquete de
programas
estadístico, como herramienta que de una forma racional,
amena y sencilla permite resolver problemas de
aplicación relacionados con la temática
tratada.
BIBLIOGRAFÍA
Cansado, E. Estadística General. Ediciones
Revolucionaria. La Habana, 1976, pp. 107-124.
Gmurman, V.E. Introducción a la teoría
de las probabilidades y estadística matemática. Editorial MIR. Moscú,
1971.
Paquete de programas Statgrapics V 2.1 y el Help (en
inglés), Año 1984.
Paquete de programas Statgrapics V 5.1 en español y
el Help en inglés, Año 1999.
Rolando Martínez Marrero
Francisco Javier Pérez Santos
Israel Tamayo Cruz (Ponente)
Universidad de Holguín "Oscar Lucero
Moya"
Departamento Docente de Matemática
Facultad de Informática y Matemática
Av. XX Aniversario s/n. Piedra Blanca. Holguín.
GP 57. CP 80100. Cuba
Página anterior | Volver al principio del trabajo | Página siguiente |