Diferencia entre revisiones de «Modelo probit»

Contenido eliminado Contenido añadido
Corrección de errores ortográficos.
Correción de conceptos, mejora de ecuaciones, se agregó más informacion
Línea 7:
==Marco conceptual==
 
Supongamos que una variable de respuesta ''<math>Y''</math> es binariadicotómica, es decir, que puede tener solo dos resultados posibles que denotaremos como <math>
1
</math> y <math>
0
</math>. Por ejemplo, <math>Y</math> puede representar la presencia /o ausencia de una determinada condición, éxito /o falla de algún dispositivo, responder sí /o no en una encuesta, etc. También tenemos un vector de regresores ''Xque denotaremos por'' <math>X</math>, que se supone que influyen en el resultado ''de <math>Y''</math>. Específicamente, suponemos que el modelo toma la forma:
: <math>
\PrP(Y=1 \mid X) = \Phi(X^T\beta),
</math>
 
Donde <math>
Donde Pr denota la probabilidad , y Φ ies la [[Función de distribución]] Acumulativa ( FDA) de la distribución normal estándar. Los parámetros ''β'' se estiman típicamente por [[máxima verosimilitud]].
P
</math> denota la probabilidad , y <math>
\Phi
</math> es la [[Función de distribución|Función de Distribución Acumulada]] ( FDA) de la [[Distribución normal|distribución normal estándar]]. Los parámetros <math>
\beta
</math> se estiman típicamente por [[máxima verosimilitud]].
 
Es posible motivar el modelo probit como un modelo de variable latente. Supongamos que existe una variable aleatoria auxiliar
: <math> Y^\ast = X^T\beta + \varepsilon, </math>
donde <math>
donde ''ε'' ~ ''N''(0, 1). Entonces ''Y'' puede verse como un indicador de si esta variable latente es positiva:
\varepsilon\sim N(0,1)
: <math> Y = \left.\begin{cases} 1 & Y^* > 0 \\
</math>. Entonces <math>
0 &\text{en otro caso} \end{cases} \right\} = \begin{cases} 1 & - \varepsilon < X^T\beta, \\
Y
0 &\text{en otro caso}. \end{cases} </math>
donde ''ε'' ~ ''N''(0, 1). Entonces ''Y''</math> puede verse como un indicador de si esta variable latente es positiva:
: <math> Y =
\left.
\begin{cases}
1 & Y^* > 0 \\
0 &\text{en otro caso}
\end{cases}
\right.
=
\begin{cases}
1 & - \varepsilon < X^T\beta, \\
0 &\text{en otro caso}. \end{cases} </math>
\end{cases} </math>
 
El uso de la distribución normal estándar no causa pérdida de generalidad en comparación con el uso de una media arbitraria y una desviación estándar porque la suma de una cantidad fija a la media puede compensarse restando la misma cantidad de la intersección y multiplicando la desviación estándar por una cantidad fija se puede compensar multiplicando los pesos por la misma cantidad.
Línea 26 ⟶ 49:
:<math>
\begin{align}
& \PrP(Y = 1 \mid X) \\
= {} & \PrP(Y^\ast > 0) \\
= {} & \PrP(X^T\beta + \varepsilon > 0) \\
= {} & \PrP(\varepsilon > -X^T\beta) \\
= {} & \PrP(\varepsilon < X^T\beta) & \text{por simetría de la distribución normal}\\
= {} & \Phi(X^T\beta)
\end{align}
Línea 38 ⟶ 61:
===Estimación de máxima verosimilitud===
 
Supongamos que el conjunto de datos <math>\{y_i,x_i\}_{i=1}^n</math> contiene ''<math>
n''
</math> unidades estadísticas independientes que corresponden al modelo anterior. Entonces su función conjunta de verosimilitud de log es<math>
\log
</math> es
: <math> \ln\mathcal{L}(\beta) = \sum_{i=1}^n \bigg( y_i\ln\Phi(x_i'\beta) + (1-y_i)\ln\!\big(1-\Phi(x_i'\beta)\big) \bigg)</math>
 
El estimador <math>\hat\beta</math> que maximiza esta función será consistente, asintóticamente normal y eficiente siempre que E[''<math>
XX'''] ^T
</math> exista y sea no sea singular. Se puede demostrar que esta función de verosimilitud de <math>
\log
</math> es cóncava globalmente en ''β''<math>
\beta
</math>, y por lo tanto los algoritmos numéricos estándar para la optimización convergerán rápidamente al máximo único.
 
Distribución asintótica para <math>\hat\beta</math> esta dado por: