Criterio de información bayesiano

En estadística, el criterio de información bayesiano (BIC) o el más general criterio de Schwarz (SBC también, SBIC) es un criterio para la selección de modelos entre un conjunto finito de modelos. Se basa, en parte, de la función de probabilidad y que está estrechamente relacionado con el Criterio de Información de Akaike (AIC).

Cuando se ajustan modelos, es posible aumentar la verosimilitud mediante la adición de parámetros, pero esto puede resultar en sobreajuste. Tanto el BIC y AIC resuelven este problema mediante la introducción de un término de penalización para el número de parámetros en el modelo, el término de penalización es mayor en el BIC que en el AIC.

El BIC fue desarrollado por Gideon E. Schwarz, quien dio un argumento bayesiano a favor de su adopción.^[1] Akaike también desarrolló su propio formalismo Bayesiano, que ahora se conoce como la ABIC por Criterio de Información Bayesiano de Akaike ".^[2]

Matemáticamente editar

El BIC es una consecuencia derivada asintótica bajo los supuestos de que la distribución de los datos se encuentra en la familia exponencial. Veamos:

$x$ = los datos observados;
$n$ = el número de datos u observaciones $x$ , o equivalentemente, el tamaño de la muestra;
$k$ = el número de parámetros libres a ser estimados. Si el modelo está bajo el supuesto de que es lineal, $k$ es el número de regresores, incluyendo el intercepto;
$p(x|M)$ = La probabilidad marginal de los datos observados dado el modelo $M$ ; esto es, Es decir, la integral de la función de verosimilitud $p(x|\theta ,M)$ veces la distribución de probabilidad antes $p(\theta |M)$ sobre los parámetros $\theta$ del modelo $M$ para los datos observados fijos $x$ ;
${\hat {L}}$ = El máximo valor de la función de verosimilitud del modelo $M$ , i.e. ${\hat {L}}=p(x|{\hat {\theta }},M)$ , donde ${\hat {\theta }}$ son los valores de los parámetros que maximizan la función de verosimilitud.

La fórmula para el BIC es:

{-2\cdot \ln {p(x|M)}}\approx \mathrm {BIC} ={-2\cdot \ln {\hat {L}}+k\ln(n)}.\

Bajo la suposición de que los errores de modelo o perturbaciones son independientes e idénticamente distribuidos según una distribución normal y que la condición límite de que la derivada de la probabilidad de registro con respecto a la varianza real es cero, esto se convierte en (hasta una constante aditiva, la cual sólo depende de n, y no en el modelo): [3]

\mathrm {BIC} =n\cdot \ln({\widehat {\sigma _{e}^{2}}})+k\cdot \ln(n)\

donde ${\widehat {\sigma _{e}^{2}}}$ es la varianza del error.

La varianza del error, en este caso se define como:

{\widehat {\sigma _{e}^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\hat {x_{i}}})^{2}.

Uno puede señalar de teoría de la probabilidad de que ${\widehat {\sigma _{e}^{2}}}$ es un estimador sesgado de la varianza verdadera, $\sigma ^{2}$ . Dejar ${\widehat {\widehat {\sigma _{e}^{2}}}}$ denotar la forma no sesgada de la aproximación de la varianza del error. Se define como:

{\widehat {\widehat {\sigma _{e}^{2}}}}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\hat {x_{i}}})^{2}.

Adicionalmente, bajo el supuesto de normalidad la siguiente versión puede ser más manejable:

\mathrm {BIC} =\chi ^{2}+k\cdot \ln(n).\,

Tenga en cuenta que hay una constante añadido que se deriva de transición de la log-verosimilitud para ${\chi }^{2}$ , sin embargo, en el uso del BIC para determinar el "mejor" modelo de la constante se convierte en trivial.

Dadas dos modelos estimados, el modelo con el menor valor de BIC es el que se prefiere. El BIC es un aumento de la función de $\sigma _{e}^{2}$ y una función creciente de k. Es decir, la variación no explicada en la variable dependiente y el número de variables explicativas aumentan el valor de BIC. Por lo tanto, menor BIC implica un número menor de variables explicativas, mejor ajuste, o ambos. La fuerza de la evidencia en contra del modelo con el mayor valor de BIC se puede resumir de la siguiente manera:^[3]

ΔBIC	Evidencia contra un BIC alto
0 to 2	No vale la pena más que una simple mención
2 to 6	Positivo
6 to 10	Fuerte
>10	Muy fuerte

El BIC generalmente penaliza parámetros libres con más fuerza que hace el criterio de información de Akaike, aunque depende del tamaño de n y la magnitud relativa de n y k.

Es importante tener en cuenta que el BIC se puede utilizar para comparar los modelos estimados sólo cuando los valores numéricos de la variable dependiente son idénticos para todas las estimaciones que se están comparando. Los modelos que se comparan no tienen que ser anidados , a diferencia del caso cuando los modelos se comparan utilizando un F o prueba de razón verosimilitud .

Referencias editar

↑ Schwarz, Gideon E. (1978). «Estimating the dimension of a model». Annals of Statistics 6 (2): 461-464. MR 468014. doi:10.1214/aos/1176344136.
↑ Akaike, H., 1977. "On entropy maximization principle". In: Krishnaiah, P.R. (Editor). Applications of Statistics, North-Holland, Amsterdam, pp. 27–41.
↑ Kass, Robert E.; Adrian E. Raftery (1995). «Bayes Factors». Journal of the American Statistical Association 90 (430): 773-795. ISSN 0162-1459. doi:10.2307/2291091.

Datos: Q1988242

[1] Schwarz, Gideon E. (1978). «Estimating the dimension of a model». Annals of Statistics 6 (2): 461-464. MR 468014. doi:10.1214/aos/1176344136.

[2] Akaike, H., 1977. "On entropy maximization principle". In: Krishnaiah, P.R. (Editor). Applications of Statistics, North-Holland, Amsterdam, pp. 27–41.

[3] Kass, Robert E.; Adrian E. Raftery (1995). «Bayes Factors». Journal of the American Statistical Association 90 (430): 773-795. ISSN 0162-1459. doi:10.2307/2291091.

[1]

[2]

[3]