Searching: septiembre 2008

Palabras clave:
Reducción, estructura de varianza-covarianza, Componentes Principales (CP), interpretación algebraica, interpretación geométrica, variabilidad máxima, Álgebra Lineal, interpretación de CP.

Para introducirlos en el tema, el análisis multivariado tiene por objetivo entregar herramientas para realizar un análisis simultáneo de un conjunto de variables. La idea es simplificar el manejo de "grandes" bases de datos, esto quiere decir por ejemplo, matrices de n x p donde se reflejan p características (variables) tomadas a n induviduos.
Una de las técnicas básica para resolver el problema del manejo de variables es Componentes Principales (CP). La idea es la siguiente:

Consideremos la matriz de n x p descrita anteriormente y supongamos que "se nos complica la vida" trabajar con p variables (p es muy grande). Nos gustaría entonces poder reducir la cantidad de variables sin perder información sobre la variabilidad de los datos. Un análisis de CP trata de explicar la estructura de varianza-covarianza a través de combinaciones lineales de las variables originales. Sus objetivos generales son

Reducción de datos
Interpretación

Aunque son necesarias p componentes para reproducir la variabilidad total, a menudo mucha de esta variabilidad puede ser captada por un número k (k<p) de componentes principales. La idea es que las k componentes principales reemplacen a las p variables iniciales (así se reduce el conjunto de datos).
Algebraicamente, las CP son combinaciones lineales de las p variables aleatorias X1,...Xp . Geométricamente, estas combinaciones lineales representan la elección de un nuevo sistema de coordenadas obtenido rotando el sistema original con X1,...Xp como los ejes coordenados. Los nuevos ejes representan las direcciones con variabilidad máxima y proporcionan una descripción más simple y parsimoniosa de la estructura de covarianza.
Como veremos más adelante, las CP dependen solamente de la matriz de covarianza (o correlaciones) de X1,...Xp y su desarrollo no requiere supuestos de normalidad. Aunque por otra parte, CP derivadas de poblaciones normales (multivariadas) tienen interpretaciones muy útiles en términos de elipsoides de densidad contante. Pero no nos desviemos de nuestro camino.

Construcción de CP

(1)Sea X'=[X1,X2,...Xp] vector aleatorio con matriz de covarianza S que a su vez tiene valores propios a1>=a2>=...>=ap>=0 (i.e. matriz S es semidefinida positiva). Considere las combinaciones lineales:

Y1 = l1'X = l11X1+l21X2+...+lp1Xp
Y2 = l1'X = l12X1+l22X2+...+lp2Xp
. .
. .
. .
Yp = l1'X = l1pX1+l2pX2+...+lppXp

Con ayuda del álgebra lineal tenemos que

Var(Yi)=li'Sli i=1,2,...,p
Cov(Yi,Yk)=li'Slk i,k=1,2,...,p

Las componentes principales son aquellas combinaciones lineales incorrelacionadas Y1,...,Yp cuya varianza es máxima. Pero existen muchos li's tales que li'Sli es máxima (basta multiplicar por una constante). Para eliminar esa indeterminación, es conveniente restringir los coeficientes li a aquellos de largo unitario. Así, la obtención de la primera CP se reduce a

maximizar l1'Sl1 =Var(Y1) sujeto a (s.a.) l1'l1=1.

Como tenemos un problema de optimización con restricciones, recurrimos al lagrangiano. Haciendo el cáculo pertinente llegamos a la siguiente ecuación:

(S-bI)l1=0

que por teorema de Roché sabemos que tiene solución ssi det(S-bI)=0. (notar que I es la matriz identidad y b el multiplicador de Lagrange). Lo anterior no es más que el método de determinación de valores y vectores propios. Por tanto, existen valores a1>=a2>=...>=ap>=0 denominados valores característicos (propios) que tienen vectores e1,e2,...,ep asociados, denominados vectores característicos (propios) que satisfacen la condición ei'ei=1, ei'ej=0.
Es inmediato que la segunda CP se obtiene de maximizar l2'Sl2 s.a. l1'l1=1 y l1'l2=0 (esta última condición es para que las componentes sean incorrelacionadas).
Así la i-ésima CP viene dada por

Yi = ei'X = e1iX1+e2iX2+...+epiXp

A partir de esto se obtienen diferentes relaciones entre medidas de variabilidad y valores característicos de la matriz S, las que no abordaremos. (Para más información consultar "Applied Multivariate Statistical Analysis" de Richard Johnson & Dean Wichern).

Nos hemos familiarizado entonces con la construcción de las CP y la idea de reducir datos. Veamos ahora el problema de la interpretación de CP. Recurriremos a un ejemplo simple calculado mediante el programa R.
Ejecutando la siguiente secuencia:

S=matrix(c(1,-2,0,-2,5,0,0,0,2),ncol=3,nrow=3,byrow=T)
eigen(S)
Obtenemos los valores y vectores propios para las variables aleatorias X1,X2,X3 cuya matriz de covarianzas es S definida como

1 -2 0
-2 5 0
0 0 2

Por tanto, las componentes principales son

Y1=0.383X1-0.924X2
Y2=X3
Y3=0.924X1+0.383X2

La primera componente se puede interpretar como un contraste entre las variables X1 y X2. Intenta capturar las diferencias entre ellas.
Era esperable que la segunda componente fuese X3, pues si nos fijamos en la matriz S, X3 tiene correlación nula con X1 y X2, luego cumple con la noción de componente principal.
La tercera componente le entrega más "peso" a la primera variable. Naturalmente, la idea es quedarse con a lo más las dos primeras componente principales, de lo contrario, tendríamos 3 componentes, igual al número de variables que queríamos reducir.

Finalizando, me permito comentar que la idea de este post no es aburrirlos con procedimientos técnicos. Todo tiene un fin friamente calculado mis estimados lectores. Atentos a lo que viene.

(1): el apóstrofe se refiere al vector traspuesto

D.

Searching

domingo, 21 de septiembre de 2008

sábado, 20 de septiembre de 2008

Sobre Análisis Multivariante

Archivo del blog

Libros

Links

Datos personales