- Conceptos
- Gráficos y
tablas - Estadística
descriptiva - Medidas de tendencia
central - Medidas de
variabilidad - Variables discretas y
variables continuas - Estadística de datos
agrupados - Muestra
aleatoria - Teorema del límite
central
Si bien no hay una definición de estadística exacta, se puede decir
que la "estadística es el estudio de los
métodos y
procedimientos
para recoger, clasificar, resumir y analizar datos y para
hacer inferencias científicas partiendo de tales
datos".
Esta definición cubre gran parte de la actividad
del científico. Es importante observar que el objeto del
que realiza el análisis estadístico son los datos y
las observaciones científicas por sí mismos, mas
que el material químico que interviene en el
estudio.
Por lo tanto no es posible trazar límites
rígidos entre la química, la
estadística y la matemática.
La estadística se puede dividir en 2
categorías, la "estadística
descriptiva" y la "inferencia
estadística".
La estadística descriptiva implica la
abstracción de varias propiedades de conjuntos de
observaciones, mediante el empleo de
métodos gráficos, tabulares ó
numéricos. Entre estas propiedades, están la
frecuencia con que se dan varios valores en la
observación, la noción de un
valor
típico o usual, la cantidad de variabilidad en un conjunto
de datos observados y la medida de relaciones entre 2 ó
mas variables.
El campo de la estadística descriptiva no tiene
que ver con las implicaciones o conclusiones que se puedan
deducir de conjuntos de datos. La estadística descriptiva
sirve como método
para organizar datos y poner de manifiesto sus
características esenciales con el propósito de
llegar a conclusiones.
La inferencia estadística se basa en las
conclusiones a la que se llega por la ciencia
experimental basándose en información incompleta.
Por ejemplo, Mendel al
estudiar la manera como diferían entre sí las
plantas de
guisantes en altura, color de las
semillas, color de las vainas y color de las flores, tuvo que
hacer sus conclusiones necesariamente basándose en un
grupo de
plantas relativamente poco numeroso comparado con toda la
población de plantas de guisantes de un
tipo particular.
Al hacer un enunciado, como por ejemplo, sobre el color
de las flores, las conclusiones de Mendel dependían de la
muestra
particular de plantas disponibles para este estudio.
En la terminología estadística, el
procedimiento
inductivo implica el hacer inferencias acerca de una
población adecuada ó universo a la
luz de lo
averiguado en un subconjunto aparte o muestra.
La inferencia estadística se refiere a los
procedimientos mediante los cuales se pueden hacer tales
generalizaciones ó inducciones.
Es importante por todo lo dicho anteriormente, que el
proceso de la
inferencia científica, implica el grado mas elevado de
cooperación entre la estadística y el estudio
experimental.
Principios generales
Los gráficos se han de explicar enteramente por
sí mismos. El contenido de un gráfico deberá
ser tan completo como sea posible.
Las escalas vertical y horizontal estarán
rotuladas con claridad dando las unidades pertinentes. La
mayorías de los gráficos presentan
información numérica con escalas, que deben
rotularse para describir completamente la variable presentada en
la escala y para
variables de medida se dirán las unidades de medición.
No se debe tratar de abarcar demasiada
información en un solo gráfico. Es mejor hacer
varios gráficos que comprimir toda la información
en uno solo. Una regla práctica segura es evitar
gráficos que contengan más de 3 curvas.
Los gráficos tienen que dar una visión
general y no una imagen detallada
de un conjunto de datos. Las presentaciones detalladas se deben
reservar para las tablas.
Las tablas se explicarán por sí mismas
enteramente. como los gráficos, se ha de dar suficiente
información en el título y en los encabezamientos
de columnas y filas de la tabla para permitir que el lector
identifique fácilmente su contenido.
Como el título será por lo general lo
primero que se lee en detalle, deberá suministrar toda la
información esencial sobre el contenido de la tabla y
deberá especificar el tiempo, lugar,
material ó estudio experimental y relaciones que se
presenten en la tabla.
Para cada variable numérica se han de dar las
unidades.
La función
del rayado es dar claridad de interpretación.
Las anotaciones de numéricas del cero se han de
escribir explícitamente.
Una anotación numérica no debe comenzar
con una punto decimal.
Los números que indican valores de la misma
característica se han de dar con el mismo número de
decimales.
Como se ha señalado anteriormente, el objetivo de la
estadística descriptiva, es la descripción de los datos y no la inferencia
partiendo de los datos.
Al describir grupos de
observaciones, con frecuencia se desea describir el grupo con un
solo número. Para tal fin, desde luego, no se usará
el valor mas elevado ni el valor mas pequeño como
único representante, ya que solo representan los extremos.
mas bien que valores típicos. Entonces sería mas
adecuado buscar un valor central.
Las medidas que describen un valor típico en un
grupo de observaciones suelen llamarse medidas de tendencia
central..Es importante tener en cuenta que estas medidas se
aplican a grupos mas bien que a individuos. un promedio es
una característica de grupo, no individual.
Media aritmética
La medida de tendencia central mas obvia que se puede
elegir, es el simple promedio de las observaciones del grupo, es
decir el valor obtenido sumando las observaciones y dividiendo
esta suma por el número de observaciones que hay en el
grupo.
En realidad hay muchas clases de promedios y ésta
se la llama media aritmética para denotar la suma de un
grupo de observaciones dividida por su número.
Mediana
Otra medida de tendencia central que se utiliza con
mucha frecuencia es la mediana, que es el valor situado en medio
en un conjunto de observaciones ordenadas por
magnitud.
Moda
Otra medida de tendencia central es la moda. La moda es
el valor que ocurre con mas frecuencia en un conjunto de
observaciones.
Oras medidas de tendencia
central
Centro de amplitud
Es el valor que queda en medio de los valores
mínimo y máximo.
Media geométrica
La media geométrica de un conjunto de
observaciones es la raíz n ésima de su producto. El
cálculo
de la media geométrica exige que todas las observaciones
sean positivas.
Media armónica
Es el inverso de la media aritmética de los
inversos de las observaciones.
Media ponderada
En ciertas circunstancias no todas las observaciones
tienen igual peso. En general si se tienen observaciones con sus
respectivos pesos es:
Amplitud
Se obtiene restando el valor mas bajo del mas alto en un
conjunto de observaciones. La amplitud tiene la ventaja de que es
fácil de calcular y sus unidades son las mismas que las de
la variable que se mide. La amplitud no toma en
consideración el número de observaciones de la
muestra estadística, sino solamente la
observación del valor máximo y la del valor
mínimo. Sería deseable utilizar también los
valores intermedios del conjunto de observaciones.
Desviación media
Esta medida es mas acorde que la de amplitud, ya que
involucra a todos los valores del conjunto de observaciones
corrigiendo la desviación. Ésta medida se obtiene
calculando la media aritmética de la muestra, y luego
realizando la sumatoria de las diferencias de todos los valores
con respecto de la media. Luego se divide por el número de
observaciones.
Una medida como ésta tiene la ventaja de que
utiliza cada observación y corrige la
variación en el número de observaciones al
hacer la división final. Y por último
también se expresa en las mismas unidades que las
observaciones mismas.
Varianza
Existe otro mecanismo para solucionar el efecto de
cancelación para entre diferencias positivas y negativas.
Si elevamos al cuadrado cada diferencia antes de sumar,
desaparece la cancelación:
Esta fórmula tiene una desventaja, y es que sus
unidades no son las mismas que las de las observaciones, ya que
son unidades cuadradas.
Esta dificultad se soluciona, tomando la raíz
cuadrada de la ecuación anterior:
Desviación típica
Es la raíz cuadrada de la varianza:
Entonces en este caso la unidad de s es la misma que la
del conjunto de observaciones de la muestra
estadística.
Variables
discretas y variables continuas
Una distribución de los datos en
categorías que ha demostrado ser útil al organizar
los procedimientos estadísticos, es la distinción
entre variables discretas y variables continuas. Una
variable discreta es sencillamente una variable para la que se
dan de modo inherente separaciones entre valores observables
sucesivos. Dicho con mas rigor, se define una variable discreta
como la variable tal que entre 2 cualesquiera valores observables
(potencialmente), hay por lo menos un valor no observable
(potencialmente). Por ejemplo, un recuento del número de
colonias de un cultivo en agar es una variable discreta. Mientras
que cuentas de 3 y 4
son potencialmente observables, no lo es una de 3,5.
Una variable continua tiene la propiedad de
que entre 2 cualesquiera valores observables (potencialmente),
hay otro valor observable (potencialmente). Una variable continua
toma valores a lo largo de un continuo, esto es, en todo un
intervalo de valores. Longitudes y pesos son ejemplos de
variables continuas. La estatura de una persona, pude ser
1,70 mts. ó 1,75 mts., pero en potencia al menos
podría tomar cualquier valor intermedio como 1,73 mts. por
ejemplo.
Un atributo esencial de una variable continua es que, a
diferencia de lo que ocurre con una variable discreta, nunca se
la puede medir exactamente. Con una variable continua debe
haber inevitablemente un error de medida.
Un importante principio sobre variables continuas es que
siempre se registran en forma discreta, quedando la magnitud de
la distancia entre valores registrables adyacentes determinada
por la precisión de la medición.
ESTADISTICA DE
DATOS AGRUPADOS
Poblaciones, muestras e
inferencia
Como se ha señalado anteriormente, el objetivo de
la estadística descriptiva, es la descripción de
los datos y no la inferencia partiendo de los datos.
Una población de unidades es un
grupo de entidades que tienen alguna característica
cuantificable en común.
Las unidades pueden ser personas, árboles, bacterias,
compuestos químicos, etc.. Pueden ser finitas o infinitas
en número. La característica cuantificable puede
ser una variable continua o discreta.
Una población de observaciones es un grupo
que consiste en los valores numéricos de una
característica cuantificable determinada en cada elemento
de una población de unidades.
La misma población de unidades tendrá en
ocasiones mas de una población de observaciones
asociada.
Una muestra de unidades es un número
finito de unidades procedentes de una población de
unidades.
Una muestra de observaciones es un número
finito de observaciones procedentes de una población de
observaciones.
Es decir una muestra es una parte de una
población que aislamos para estudiarla.
Este concepto es de
importancia para el análisis estadístico porque por
lo general uno dispone de una muestra de una población
para el estudio que intenta realizar. Por ejemplo, si
necesitáramos hacer un promedio de todas las alturas de
los habitantes de un país de 200.000.000 de habitantes
(esta sería la población estadística), es
lógico suponer lo engorroso que sería medir la
altura de todos. Esto se realiza midiendo las alturas de una
muestra de esta población, por ejemplo 10.000 habitantes.
Este procedimiento es inductivo ya que el investigador saca
conclusiones acerca de la población basándose en el
análisis de una muestra de esa población; esto es
hacer una inferencia acerca de una población
partiendo de una muestra.
Se llama inferencia estadística una
conclusión que se refiere a una población de
observaciones, obtenida sobre la base de una muestra de
observaciones.
Una característica descriptiva global de una
población de observaciones se llama
parámetro.
Una característica descriptiva global de una
muestra de observaciones se llama
estadígrafo.
Una muestra aleatoria es una muestra sacada de
una población de unidades, de manera que todo elemento de
la población tenga la misma probabilidad de
selección y que las unidades diferentes se
seleccionen independientemente.
Variables
aleatorias y distribuciones
Se llama variable aleatoria aquella que toma
diversos valores o conjuntos de valores con distintas
probabilidades. Existen 2 características importantes de
una variable aleatoria, sus valores y las probabilidades
asociadas a esos valores.
Una tabla, gráfico o expresión
matemática que dé las probabilidades con que una
variable aleatoria toma diferentes valores, se llama
distribución de la variable aleatoria.
Como vimos anteriormente, la inferencia
estadística se relaciona con las conclusiones que se
pueden sacar acerca de una población de observaciones
basándose en una muestra de observaciones. Entonces
intervienen las probabilidades en el proceso de la
selección de la muestra; en este caso se desea saber algo
sobre una distribución con base en una muestra aleatoria
de esa distribución.
De tal manera vemos que trabajamos con muestras
aleatorias de una población que es más grande
que la muestra obtenida; tal muestra aleatoria aislada no es mas
que una de muchas muestras diferentes que se habrían
podido obtener mediante el proceso de selección. Este
concepto es realmente importante en
estadística.
La distribución de un estadígrafo
en todas las muestras aleatorias de tamaño n
tomadas de una población, se llama distribución
muestral del estadígrafo para muestras aleatorias de
tamaño n.
Definición
Una muestra aleatoria simple de tamaño n
de una población de tamaño N, es una muestra
escogida de tal manera que todo grupo de n unidades diferentes
tiene igual probabilidad de ser escogido como
muestra.
Propiedades generales de la curva
normal
La distribución que ocupa la posición
central en la teoría
y práctica estadísticas, es la distribución
normal.
No hay variable aleatoria observable que siga
exactamente la distribución normal, y muchas variables que
se dan en la experiencia normal no tienden a seguir esta
distribución.
La expresión matemática de la densidad normal
es:
El área total bajo la curva es 1, ya que las
áreas bajo las curvas de densidad dan probabilidades y
puesto que debe presentarse algún valor de x entre mas
infinito y menos infinito; lo cual es lo mismo que decir que la
probabilidad de que x caiga en algún punto debe ser
1.
La distribución normal es una numerosa familia de
distribuciones que corresponden a los muchos
valores diferentes de μ y de
σ.
Es esencial una simplificación para tabular las
probabilidades normales para varios valores de los
parámetros. Esto es posible por medio del procedimiento
llamado tipificación. Geométricamente equivale a
convertir la escala básica de valores x de modo que se
mida en una escala patrón en la que corresponda el valor
cero y en la que la unidad de medida sea 1 desviación
típica (s); es decir, se convierten las
medidas a números expresados en s como
unidades por encima o por debajo de la media.
Cristina Fevola