El estudio longitudinal en la estadística
Aquí las ideas están mucho más
claras: un estudio longitudinal es el que implica más de
dos mediciones a lo largo de un seguimiento; deben ser más
de dos, ya que todo estudio de cohortes tiene este número
de mediciones, la del principio y la del final del seguimiento.
Éste es el concepto
existente en el texto
mencionado de Goldstein de 1979. En ese mismo año Rosner
era explícito al indicar que los datos
longitudinales implican mediciones repetidas en los sujetos a lo
largo del tiempo,
proponiendo un nuevo procedimiento de
análisis para ese tipo de
datos17. Desde ese momento, los artículos en
revistas de estadística (por ejemplo18-22) y
textos23-25 son consistentes en el mismo
concepto.
Dos obras de referencia en epidemiología, aunque
no definen en el apartado correspondiente los estudios
longitudinales, coinciden con la noción estadística
prevaleciente. En el libro
codirigido por Rothman y Greenland, dentro del capítulo
Introducción a la modelación de la
regresión, el propio Greenland afirma que los datos
longitudinales son las mediciones repetidas en los sujetos a lo
largo de un periodo de tiempo y que se pueden realizar para
exposiciones dependientes del tiempo (por ejemplo, tabaquismo,
consumo de
alcohol, dieta
o presión
arterial) o resultados recurrentes (por ejemplo, dolor, alergia,
depresión, etc.)26. En la
Enciclopedia de Métodos
Epidemiológicos, la entrada del «tamaño de
muestra»
incluye un apartado de «estudios longitudinales» en
el que se ofrece la misma información proporcionada por
Greenland27.
Conviene matizar que la visión estadística
de «estudio longitudinal» parte de un análisis
de datos particular (tener en cuenta las medidas repetidas) y que
lo mismo sería aplicable a los estudios de
intervención, que también tienen
seguimiento28.
Para finalizar este apartado, en el número
monográfico de Epidemiologic Reviews dedicado a los
estudios de cohortes, Tager, en su artículo centrado en la
variable resultado de los estudios de cohortes, clasifica de
manera amplia los estudios de cohortes en dos grandes grupos, de
«tabla de vida» y
«longitudinales»29, aclarando que esta
clasificación es algo «artificial». Los
primeros son los convencionales, en los que el resultado es una
variable discreta, la exposición
y la población-tiempo se resumen, se estiman
incidencias y la medida principal es el riesgo relativo.
Los segundos incorporan un análisis diferente,
aprovechándose de las mediciones repetidas en los sujetos
a lo largo del tiempo, permitiendo una inferencia, además
de poblacional, a nivel individual en los cambios de un proceso a lo
largo del tiempo o en las transiciones entre diferentes estados
de salud y la
enfermedad.
Las ideas anteriores denotan que en epidemiología
hay una tendencia a esquivar el concepto de estudio longitudinal.
No obstante, resumiendo las ideas comentadas con anterioridad, la
noción de estudio longitudinal hace referencia al estudio
de cohortes en el que se realizan más de dos mediciones a
lo largo del tiempo y en el que se realiza un análisis que
tiene en cuenta las diferentes medidas. Los tres elementos claves
son: seguimiento, más de dos medidas y un análisis
que las tenga en cuenta. Esto puede hacerse de manera prospectiva
o retrospectiva, y el estudio puede ser de observación o de
intervención.
DIFERENCIAS ENTRE LOS ESTUDIOS
LONGITUDINALES Y LOS DE TABLA DE VIDA
En la tabla 1 se resumen las características
generales de ambos tipos de diseños. Los estudios de
cohortes tipo tabla de vida son los que resumen la
exposición y la enfermedad en los grupos que se comparan,
por ejemplo, frecuencia del cáncer de pulmón en
fumadores y no fumadores. La inferencia proporcionada por estos
estudios se refiere a medias poblacionales. Llevan
implícita la asunción de que la exposición
actúa de manera constante en el tiempo y tiene un efecto
también constante por unidad de tiempo a lo largo del
seguimiento, y sólo pueden proporcionar una inferencia
limitada sobre la dependencia en el tiempo de las asociaciones
entre la exposición y el efecto29. Un ejemplo
de este tipo de estudio puede ser el Nurses' Health Study,
con más 120.000 enfermeras en 11 estados de EE.UU., en el
que la exposición acumulada a los anticonceptivos orales se valoró
como factor de riesgo del cáncer de
mama30.
Los estudios longitudinales en cualquier momento se
pueden comportar como los estudios tipo tabla de vida. Pueden
además realizar inferencias también a nivel
individual, valoran el cambio de
procesos a lo
largo del tiempo y las transiciones entre los distintos estados
de salud-enfermedad. Un ejemplo, al igual que el Nurses' Health
Study, prolífico en publicaciones, es el MACS
(Multicenter AIDS Cohort Study), en el que se reclutaron
casi 5000 varones en cuatro ciudades
estadounidenses31. Cuando se miden cambios de una
variable en función
del tiempo, en el diseño
hay que tener en cuenta la duración del seguimiento y el
espaciamiento de las mediciones32.
PARTICULARIDADES DE LOS ESTUDIOS
LONGITUDINALES
Al realizarse mediciones a lo largo del tiempo, el
control de calidad juega
un papel esencial. Hay que garantizar que todas las mediciones se
realicen en el momento oportuno y con técnicas
normalizadas. La larga duración de algunos estudios obliga
a prestar una atención especial al cambio de personal, al
deterioro de los equipos, al cambio de tecnologías y a las
inconsistencias de las respuestas de los participantes a lo largo
del tiempo33.
Existe una mayor probabilidad de
abandono durante el seguimiento. Los factores que intervienen
en ello son varios34:
* La definición de una población
según un criterio inestable. Por ejemplo, vivir en un
área geográfica concreta puede motivar que
participantes con cambios de domicilio no sean elegibles en fases
ulteriores.
* Será mayor cuando en los respondedores que no
se contactan una vez, no se vuelve a intentar establecer el
contacto en fases ulteriores del seguimiento.
* El objeto del estudio influye; por ejemplo, en un
estudio de ciencia
política
los no interesados en política abandonarán
más.
* La cantidad de atención personal dedicada a los
respondedores. Las entrevistas
telefónicas y por carta son menos
personales que las que se realizan cara a cara, y no se
aprovechan para fortalecer los vínculos con el
estudio.
* El tiempo invertido por el respondedor en satisfacer
la demanda de
información de los investigadores. Cuanto mayor sea, mayor
será la frecuencia de abandonos.
* La frecuencia del contacto puede también
influir, aunque no todos están de acuerdo. Hay estudios
que han documentado que un exceso de contactos perjudica el
seguimiento, mientras que otros, o no han encontrado
relación o ésta es negativa.
Para evitar los abandonos conviene establecer estrategias con
el fin de retener y rastrear a los miembros participantes. Debe
valorarse al comienzo la voluntad de participación e
informar de lo que se espera de los participantes. Hay que
establecer puentes de unión con los participantes mediante
el envío de cartas de
felicitación, actualizaciones del estudio, etc. La
frecuencia de contacto debe ser regular. El personal del estudio
debe ser entusiasta, con facilidad de comunicación, que responda rápida y
adecuaduamente a los problemas de
los participantes y adaptable a sus necesidades. No hay que
desdeñar dar incentivos que
motiven la continuación en el
estudio35.
En tercer lugar, otro problema de mayor calibre frente a
otros estudios de cohortes es la existencia de datos
perdidos. Si se requiere que un participante tenga todas las
mediciones hechas, puede producir un problema similar al de los
abandonos durante el seguimiento. Pare ello se han desarrollado
técnicas de imputación de valores
perdidos y, aunque se ha sugerido que pueden no ser necesarias si
se aplican las ecuaciones de
estimación generalizadas (análisis
GEE)36, se ha comprobado que otros procedimientos
dan mejores resultados, incluso cuando las perdidas son
completamente aleatorias37. Con frecuencia las
pérdidas de información son diferenciales y se
pierden más mediciones en los pacientes con un peor nivel
de salud. Se recomienda en estos casos que la imputación
de datos se haga teniendo en cuenta los datos ya existentes del
propio individuo al
que le faltan38.
Análisis
En el análisis de los estudios longitudinales es
posible tratar covariables dependientes del tiempo que pueden a
la vez influir sobre la exposición en estudio y ser
influidas por ella (variables que
se comportan simultáneamente como confundidoras e
intermedias entre exposición y efecto). También, de
manera similar, permite controlar resultados recurrentes que
pueden actuar sobre la exposición y ser ocasionados por
ella (se comportan a la vez como confundidores y
efectos)26.
El análisis longitudinal se puede utilizar cuando
existen mediciones del efecto y/o de la exposición en
diferentes momentos del tiempo. Supongamos que la relación
entre una variable dependiente Y es función de una
variable X que cambia en el tiempo (témporo-dependiente) y
otra Z que es estable en el tiempo
(témporo-independiente), que se estudian N sujetos en K
momentos del tiempo, lo cual se expresa según la
ecuación siguiente17:
Yit = bxit +
zia + eit
donde el subíndice i hace referencia al
individuo, el t al momento del tiempo y e es un término de
error (Z no cambia al ser estable y por eso tiene un solo
subíndice). La existencia de varias mediciones permite
estimar el coeficiente b sin necesidad de conocer el valor de la
variable estable, al realizar una regresión de la
diferencia en el efecto (Y) sobre la diferencia de valores de las
variables independientes:
Yit – Yi1 =
b(xit – xi1 ) + a(zi –
zi ) +
+ eit – ei1 = b(xit –
xi1 ) + eit – ei1
Es decir, no es necesario saber el valor de las
variables témporo-independientes (o estables) en el
tiempo. Esto supone una ventaja sobre otros análisis, en
los que hay que conocer dichas variables. El modelo
anterior es fácilmente generalizable a un vector
multivariable de factores cambiantes en el tiempo.
El análisis longitudinal se realiza dentro del
contexto de los modelos
lineales generalizados y tiene dos objetivos:
adoptar las herramientas
convencionales de regresión, en las que se relaciona el
efecto con las diferentes exposiones y tener en cuenta la
correlación de las medidas entre sujetos. Este
último aspecto es muy importante. Suponga que analiza el
efecto del crecimiento sobre la presión arterial; los valores de
presión arterial de un sujeto en los distintos
exámenes realizados dependen del valor inicial o basal y
por ello hay que tenerlo en cuenta.
Por ejemplo, el análisis longitudinal se
podría realizar en una cohorte infantil en la que se
valora como exposición principal la deficiencia de
vitamina A (que puede cambiar en el tiempo) sobre el riesgo de
infección (que puede ser múltiple a lo largo del
tiempo), controlando la influencia de la edad, el peso y la talla
(variables témporo-dependientes). El análisis
longitudinal se puede clasificar en tres grandes
grupos39:
a) Modelos marginales: combinan las diferentes
mediciones (que son cortes en el tiempo) de la prevalencia de la
exposición para obtener una prevalencia media u otra
medida resumen de la exposición a lo largo del tiempo, y
la relaciona con la frecuencia de la enfermedad. El elemento
longitudinal es la edad o la duración del seguimiento en
el análisis de regresión. Los coeficientes de este
tipo de modelos se transforman en una razón de
prevalencias poblacionales; en el ejemplo de la vitamina A y la
infección sería la prevalencia de infección
en niños
con deficiencia de vitamina A dividida por la prevalencia de
infección en niños sin déficit de vitamina
A.
b) Los modelos de transición realizan una
regresión del resultado presente sobre valores pasados y
sobre las exposiciones pasadas y presentes. Un ejemplo de ellos
son los modelos de Markov. Los coeficientes del modelo se
transforman directamente en un cociente de incidencias, esto es,
en RRs; en el ejemplo sería el RR del déficit de
vitamina A sobre la infección.
c) Los modelos de efectos aleatorios permiten que cada
individuo tenga parámetros de regresión
únicos, y existen procedimientos para resultados
normalizados, binarios y datos de persona-tiempo.
Los coeficientes del modelo se transforman en una odds ratio
referida al individuo, que se asume constante en toda la
población; en el ejemplo sería la odds de
infección en un niño con déficit de vitamina
A frente a la odds de infección en el mismo niño
sin deficiencia de vitamina A.
Los modelos lineales, logístico, de Poisson y
muchos análisis de supervivencia se pueden considerar
casos particulares de modelos lineales generalizados. Hay
procedimientos que permiten las entradas tardías o en
momentos diferentes y de manera desigual en la observación
de una cohorte.
Además de los modelos paramétricos
indicados en el párrafo
anterior, es posible el análisis mediante métodos
no paramétricos; por ejemplo, el uso de análisis
funcional con splines ha sido revisado
recientemente40,41.
Se han mencionado varios textos específicos sobre
análisis de datos longitudinales. Uno de ellos ofrece
incluso ejemplos con las rutinas a escribir para realizar
correctamente el análisis usando diferentes paquetes
estadísticos convencionales (STATA, SAS,
SPSS)25.
BIBLIOGRAFÍA
1. Chinn S. Longitudinal studies: objectives and ethical
considerations. Rev Epidém Santé Publ 1989; 37:
417-29.
2. Goldstein H. The design and analysis of longitudinal
studies. Londres: Academic Press, 1979.
3. Miettinen OS. Theoretical epidemiology: principles of
ocurrence research in medicine. Nueva York: Wiley;
1985.
4. Rothman KJ. Modern epidemiology. Boston:
Little-Brown; 1986.
5. Abramson JH. Classification of epidemiologic
research. J Clin Epidemiol 1989; 42: 819-20.
6. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic
research. Belmont: Lifetime Learning Publications;
1982.
7. Kahn HA, Sempos CT. Statistical methods in
epidemiology. Nueva York: Oxford University Press;
1989.
8. Last JM. A dictionary of epidemiology. 2ª ed.
Nueva York: Oxford Univ. Press; 1988.
9. Beslow NE, Day NE. Statistical methods for cancer research.
Volume II- The design and analysis of cohort studies.
Lión: IARC Scientific Publications; 1987.
10. Cook NR, Ware JH. Design and analysis methods for
longitudinal research. Annu Rev Public Health
1983;4:1-24.
11. Rothman KJ, Greenland S, editores. Modern
Epidemiology. 2ª ed. Filadelfia: Lippincott-Raven;
1998.
12. Gail MH, Benichou J, editores. Encyclopedia of
epidemiologic methods. Chichester: Wiley; 2000.
13. Last JM. A dictionary of epidemiology. 4ª ed.
Nueva York: Oxford Univ. Press; 2000.
14. Gordis L. Epidemiology. Filadelfia: Saunders;1996.
p. 119.
15. Aday LA. Designing and conducting health surveys.
2ª ed. San Francisco: Jossey-Bass Publishers; 1996. p.
29-30.
16. Collins A, Landgren B-M. Longitudinal research on
the menopause: methodological challenges. Acta Obstet Gynecol
Scand 2002; 81: 579-80.
17. Rosner B. The análisis of longitudinal data
in epidemiologic studies. J Chron Dis 1979; 32:
163-73.
18. Louis TA. General methods for analysing repeated
measures. Stat Med 1988; 7: 29-45.
19. Ware JH, Lipsitz S. Issues in the analysis of
repeated categorical outcomes. Stat Med 1988; 7:
95-107.
20. Landis JR, Miller ME. Some general methods for the
analysis of categorical data in longitudinal studies. Stat Med
1988; 7: 29-45.
21. Zeger SL, Liang KY. An overview of methods for the
analysis of longitudinal data. Stat Med 1992; 11:
1825-39.
22. Carlin JB, Wolfe R, Coffey C, Patton GC. Analysis of
binary outcomes in longitudinal studies using weighted estimating
equations and discrete-time survival methods: prevalence and
incidence of smoking in an adolescent cohort. Stat Med 1999; 18:
2655-79.
23. Dwyer JH, Feinleib M, lippert P, Hoffmeister H.
Statistical models for longitudinal studies of health. Nueva
York: Oxfod University Press; 1992.
24. Diggle PJ, Heagerty P, Liang KY, Zeger SL. Analysis
of longitudinal data. 2ª ed. Oxford: Oxford University
Press; 2002.
25. Twisk JWR. Applied longitudinal data analysis for
epidemiology. A practical guide. Cambridge: Cambridge University
Press; 2003.
26. Greenland S. Introduction to regresión
modeling. En: Rothman KJ, Greenland S, editores. Modern
Epidemiology. 2ª ed. Filadelfia: Lippincott-Raven; 1998. p.
359-432.
27. Liu G. Sample size for epidemiologic studies. En:
Gail MH, Benichou J, editores. Encyclopedia of epidemiologic
methods. Chichester: Wiley;2000. p. 787-788.
28. Galbraith S, Marschner IC. Guidelines for the design
of clinical trials with longitudinal outcomes. Controlled Clin
Trials 2002; 23: 257-73.
29. Tager IB. Outcomes of cohort studies. Epidemiol Rev
1998; 20: 15-28.
30. Lipnick RJ, Buring JE, Hennekens CH, Rosner B,
Willett W, Bain C, et al. Oral contraceptives and breast cancer.
A prospective cohort study. JAMA 1986;255:58-61.
31. Muñoz A, Kirby AJ, He YD. Long-term survivors
with HIV-infection: incubation period and longitudinal patterns
of CD4+ lymphocytes. J Acquir Immune Defic Syndr Hum Retrovirol
1995; 8: 496-505.
32. Schlesselman KK. Planning a longitudinal study. II.
Frequency of measurement and study duration. J Chron Dis 1973;
26: 561-70.
33. Whitney CW, Lind BK, Wahl PW. Quality assurance and
quality control in
longitudinal studies. Epidemiol Rev 1998; 20: 71-80.
34. Deeg DJH, van Tilburg T, Smit JH, de Leeuw ED.
Attrition in the Longitudinal Aging Study Amsterdam: The effect
of differential inclusion in side studies. J Clin Epidemiol 2002;
55: 319-28.
35. Hunt JR, White E. Retaining and tracking cohort
study members. Epidemiol Rev 1998; 20: 57-70.
36. Twisk J, de Vente W. Attrition in longitudinal
studies: how to deal with missing data. J Clin Epidemiol 2002;
55: 329-37.
37. Touloumi G, Babiker AG, PocockSJ, Darbyshire JH.
Impact of missing data due to drop-outs on estimators for rates
of change in longitudinal studies: a simulation study. Stat Med
2001; 20: 3715-28.
38. Engels JM, Diehr P. Imputation of missing
longitudinal data: a comparison of methods. J Clin Epidemiol
2003; 56: 968-76.
39. Samet JM, Muñoz A. Evolution of the cohort
studies. Epidemiol Rev 1998; 20: 1-14.
40. Guo W. Functional data analysis in longitudinal
settings using smoothing splines. Stat Meth Med Res 2004;
13:49-62.
41. Zhang H. Mixed effects multivariate adaptive splines
model for the analysis of longitudinal and growth curve data.
Stat Meth Med Res 2004; 13: 63-82.
Miguel Delgado Rodríguez (1) y Javier Llorca
Díaz (2)
(1) Universidad de
Jaén
(2) Universidad de Cantabria.
Correspondencia: Miguel Delgado Rodríguez. Universidad de
Jaén. Edificio B-3. 23071-Jaén.
Página anterior | Volver al principio del trabajo | Página siguiente |