may 072012
 
Rlogo-beta

Un problema que se presenta en los modelos de regresión, pero no ligado al incumplimiento de un supuesto concreto, es la presencia de observaciones extremas e influyentes. Se dice que una observación es atípica si el residuo asociado es grande. Por su parte, una observación es extrema (o potencialmente influyente o apalancada) si se encuentra apreciablemente alejada del resto de observacines de la muestra. Por su parte, se habla de observación influyente si la presencia de dicha observación en la muestra altera significativamente algún aspecto de la estimación del modelo.

Debe quedar claro que tanto la presencia de observaciones atípicas como extremas no implica, necesariamente, que influyan en la estimación, aunque deberían ser analizadas las causas de la presencia de dichas observaciones en la muestra. De no pertenecer a la población objeto de estudio, podrían eliminarse sin más. Más problemáticas resultan las observaciones influyentes, puesto que su peso en la estimación es considerable, pero si no son extremas, no se podría justificar su exclusión.

Si bien el gráfico de residuos es una primera aproximación y suficiente para la detección de atípicos, los residuos no son la herramienta adecuada para la detección de observaciones extremas e influyentes, ya que por la naturaleza de estas, podrían alterar la estimación de forma que el residuo asociado resultase pequeño.

Para detectar la presencia de observaciones potencialmente influyentes (también se les llama extremas o apalancadas) se utilizan los elementos de la diagonal principal de la matriz sombrero. Partiendo de la notación del modelo lineal general, se define H=X(X′X)−1X′. El curioso nombre de la matriz H se debe a que cumple \hat{\mathbf{y}}=H\mathbf{y}, es decir, le “pone el sombrero” al vector de valores de la variable dependiente y. Los elementos de la diagonal de matriz H, que se denotan hii, son una distancia de cada observación a la nube de puntos y por lo tanto, valores elevados (superiores a 2k/n) señalan observaciones relativamente alejadas del conjunto y podrían influir sustancialmente en la estimación.

Para detectar observaciones influyentes se han definido estadísticos que miden el efecto de cada observación en diferentes elementos de la estimación. El más utilizado es la distancia de Cook (o estadístico de Cook), que mide el cambio en el vector de coeficientes estimados \hat{\boldsymbol{\beta}} al eliminar sucesivamente cada observación de la muestra. Si se denota por \hat{\boldsymbol{\beta}}_{(i)} la estimación por mínimos cuadrados sin la i-ésima observación, la distancia de Cook para la observación i es:

D_{i} = \frac{1}{k}(\hat{\boldsymbol{\beta}} - \hat{\boldsymbol{\beta}}_{(i)})' \left [ \mathrm{V}(\hat{\boldsymbol{\beta}}) \right ]^{-1} (\hat{\boldsymbol{\beta}} - \hat{\boldsymbol{\beta}}_{(i)}),

donde k es la dimensión del vector \hat{\boldsymbol{\beta}}. Aunque el estadístico de Cook no sigue una distribución concreta, para determinar aquellos valores grandes se suele utilizar 1 como indicador de problemas y de forma más refinada el valor crítico de una Fk,n−k.

En el contexto de las medidas de influencia, también se suelen considerar los residuos estudentizados, que se obtienen dividiendo el residuo MCO entre la desviación típica residual obtenida al eliminar la i-ésima observación de la estimación, de manera que dicha observación no tenga impacto en la estimación de σ2. Los residuos estudentizados se definen:

r_i = \frac{\hat{\varepsilon}_i}{\hat{\sigma}\sqrt{1-h_{ii}}},

donde \hat{\varepsilon}_i y \hat{\sigma}^2 se obtienen de la estimación del modelo por MCO y hii es el i-ésimo elemento de la diagonal de la matriz sombrero.

Las medidas presentadas están relacionadas con la distancia de Cook a través de las siguientes expresiones:

D_i = \frac{r_i^2}{k} \frac{h_{ii}}{1-h_{ii}} = \frac{1}{k} \left (    \frac{\hat{\varepsilon}_i}{\hat{\sigma}\sqrt{1-h_{ii}}} \right )^2    \left ( \frac{h_{ii}}{1-h_{ii}} \right ).

Para ilustrar el uso los estadísticos vamos a usar un conjunto de datos de un estudio de 1976 sobre la concentración media de nitrógeno en mg/litro (nitrogen) en 20 ríos del estado de Nueva York en EE.UU. Las variables explicativas son el porcentaje de tierra de la cuenca de cada río destinados a agricultura (agriculture), bosque (forests), residencial (residential) y comercial o industrial (comm.indust).

> nyrivers <- read.csv("http://grserrano.es/datos/nyrivers.csv",
+                      row.names="river" )
> m.nit <- lm(nitrogen~agriculture+forest+residential+com.indust, data=nyrivers)
> summary(m.nit)


Call:
lm(formula = nitrogen ~ agriculture + forest + residential +
    com.indust, data = nyrivers)

Residuals:
     Min       1Q   Median       3Q      Max
-0.49404 -0.13180  0.01951  0.08287  0.70480

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept)  1.722214   1.234082   1.396   0.1832
agriculture  0.005809   0.015034   0.386   0.7046
forest      -0.012968   0.013931  -0.931   0.3667
residential -0.007227   0.033830  -0.214   0.8337
com.indust   0.305028   0.163817   1.862   0.0823 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2649 on 15 degrees of freedom
Multiple R-squared: 0.7094,	Adjusted R-squared: 0.6319
F-statistic: 9.154 on 4 and 15 DF,  p-value: 0.0005963

Como se puede apreciar, ninguna de las variables es significativa al 5%, si bien el porcentaje de la tierra destinado a usos comerciales o industriales lo es al 10%. La función plot.lm(), a la se se le pasa un modelo estimado y una selección de gráfico mediante el argumento which= nos ofrece la información necesaria.

> pdf(file="infl%02d.pdf", onefile=FALSE)
> plot.lm(m.nit, which=1)
> plot.lm(m.nit, which=4)
> plot.lm(m.nit, which=5)
> dev.off()

Valores ajustados y residuos.

Distancia de Cook.

Matriz sombrero, residuos y distancia de Cook.


Gráfico 1: Gráficos de diagnósitico de atípicos e influyentes.

Como se puede apreciar en los gráficos, los ríos Fishkill y Oswegatchie presentar residuos elvados, sin embargo, no son influyentes. A la vista de las distancias de Cook y del gráfico combinado, son el Hackensack y el Neversink los influyentes, es decir, su presencia en la estimación puede estar introduciendo alteraciones importantes en los resultados. El origen de la influencia es la gran distancia que los separa del resto de observaciones, con valores de hii próximos a la unidad.

Los valores numéricos de las medidas de influencia presentadas más arriba (junto con otras) se pueden obtener mediante la función influence.measures(). A continuación se utiliza dicha función, que devuelve una estructura algo compleja, y se crea una variable que indica si la observación es influyente o potencialmente influyente usando la distancia de Cook y la matriz sombrero. Después se listan las filas del data.frame original que podrían resultar problemáticas. Puede mostrar las medidas relevantes para todas las observaciones listando infl.m.nit.

> infl.m.nit <- influence.measures(m.nit)
> esinf      <- apply(infl.m.nit$is.inf[, c("cook.d", "hat")], 1, any)
> cbind(nyrivers[esinf,], infl.m.nit$infmat[esinf, c("cook.d", "hat")])


           agriculture forest residential com.indust nitrogen   cook.d
Neversink            2     84         1.9       1.98     1.00 13.21955
Hackensack           3     27        29.4       3.11     1.99 65.42632
                 hat
Neversink  0.8967834
Hackensack 0.9720820

A la vista de los resultados, en ambos casos la matriz sombrero indica posibles problememas, puesto que los valores de hii superan con mucho la frontera de 2k/n que en este caso es 0.5. También la distancia de Cook es enorme comparada con el valor de referencia, el valor que deja a la izquierda un 95% de probabilidad en una F5, 20, que es 2.71.

> nyrivers.noinf <- nyrivers[!esinf, ]
> m.nit.2 <- lm(nitrogen~agriculture+forest+residential+com.indust,
+               data=nyrivers.noinf)
> summary(m.nit.2)
 


Call:
lm(formula = nitrogen ~ agriculture + forest + residential +
    com.indust, data = nyrivers.noinf)

Residuals:
     Min       1Q   Median       3Q      Max
-0.36990 -0.05218 -0.00979  0.09231  0.24847

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept)  1.379765   0.774262   1.782   0.0981 .
agriculture  0.005197   0.009431   0.551   0.5909
forest      -0.010462   0.008668  -1.207   0.2489
residential  0.078339   0.084329   0.929   0.3698
com.indust   0.674612   0.437107   1.543   0.1467
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1619 on 13 degrees of freedom
Multiple R-squared: 0.8816,	Adjusted R-squared: 0.8452
F-statistic: 24.21 on 4 and 13 DF,  p-value: 6.365e-06

A pesar de haber eliminado las observaciones influyentes, el modelo todavía presenta algún problema, puesto que las variables no resultan individualmente significativas pero sí en conjunto, se puede sospechar la presencia de multicolinealidad, que se comprueba mediante los factores de inflación de varianza (usando la función vif()). Dicha sospecha está bien justificada en la naturaleza de las variables, que son el porcentaje de la cuenca de cada río destinado a cierto uso, por lo que cabe suponer que sumaran aproximadamente 100. Si eliminamos las variables residential y forest, vemos que las restantes variables sí resultan claramente significativas y con los signos esperados:

> vif(m.nit.2)


agriculture      forest residential  com.indust
  11.832121   12.335352    7.533501    7.638111


> m.nit.3 <- lm(nitrogen~agriculture+com.indust, data=nyrivers.noinf)
> summary(m.nit.3)


Call:
lm(formula = nitrogen ~ agriculture + com.indust, data = nyrivers.noinf)

Residuals:
      Min        1Q    Median        3Q       Max
-0.270138 -0.101492 -0.002511  0.075934  0.275115

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.428827   0.083290   5.149 0.000119 ***
agriculture 0.016706   0.002782   6.005 2.41e-05 ***
com.indust  1.157635   0.160485   7.213 3.01e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1641 on 15 degrees of freedom
Multiple R-squared: 0.8596,	Adjusted R-squared: 0.8409
F-statistic: 45.93 on 2 and 15 DF,  p-value: 4.022e-07

 Leave a Reply

(necesario)

(necesario)

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>