Componentes De La Tecnica
Técnicamente, el ACP busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados. El ACP se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos. El ACP comporta el cálculo de la descomposición en autovalores de la matriz de covarianza, normalmente tras centrar los datos en la media de cada atributo. Técnicamente, el ACP busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados. El ACP se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos. El ACP comporta el cálculo de la descomposición en autovalores de la matriz de covarianza, normalmente …ver más…
A partir de los [pic]datos correspondientes a las m variables aleatorias, puede construirse la matriz de correlación muestral, que viene definida por:
[pic]
Puesto que la matriz de correlaciones es simétrica entonces resulta diagonalizable y sus valores propios [pic]verifican:
[pic]
Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes principales. Los factores principales identificados matemáticamente se representan por la base de vectores propios de la matriz [pic]. Está claro que cada una de las variables puede ser expresada como combinación lineal de los vectores propios o componentes principales.
[editar] Método basado en las covarianzas
El objetivo es transformar un conjunto dado de datos X de dimensión n x m a otro conjunto de datos Y de menor dimensión n x l con la menor perdida de información útil posible utilizando para ello la matriz de covarianza.
Se parte de un conjunto n de muestras cada una de las cuales tiene m variables que las describen y el objetivo es que, cada una de esas muestras, se describa con solo I variables, donde l < m. Además, el número de componentes principales l tiene que ser inferior a la menor de las dimensiones de X.
[pic]
Los datos para el análisis tienen que estar centrados a media 0 (restándoles la media de cada columna) y/o autoescalados(centrados a media 0