Abrir menú principal

Modelo lineal generalizado

En las estadísticas, el modelo lineal generalizado (GLM) es una generalización flexible de la regresión lineal ordinaria que permite variables de respuesta que tienen modelos de distribución de errores distintos de una distribución normal. El GLM generaliza la regresión lineal al permitir que el modelo lineal esté relacionado con la variable de respuesta a través de una función de enlace y al permitir que la magnitud de la varianza de cada medición sea una función de su valor predicho.

John Nelder y Robert Wedderburn formularon modelos lineales generalizados como una forma de unificar otros modelos estadísticos, como la regresión lineal, la regresión logística y la regresión de Poisson. Propusieron un método de mínimos cuadrados iterativamente ponderados para la estimación de máxima verosimilitud de los parámetros del modelo. La estimación de máxima verosimilitud sigue siendo popular y es el método predeterminado en muchos paquetes de computación estadística. Se han desarrollado otros enfoques, incluidos los enfoques bayesianos y los ajustes de mínimos cuadrados a las respuestas estabilizadas de la varianza.

IntuiciónEditar

La regresión lineal ordinaria predice el valor esperado de una cantidad desconocida dada (la variable de respuesta, una variable aleatoria) como una combinación lineal de un conjunto de valores observados (predictores). Esto implica que un cambio constante en un predictor conduce a un cambio constante en la variable de respuesta (es decir, un modelo de respuesta lineal). Esto es apropiado cuando la variable de respuesta tiene una distribución normal (intuitivamente, cuando una variable de respuesta puede variar esencialmente indefinidamente en cualquier dirección sin un "valor cero" fijo, o más generalmente para cualquier cantidad que solo varía en una cantidad relativamente pequeña, por ejemplo, la altura humana).

Sin embargo, estos supuestos son inapropiados para algunos tipos de variables de respuesta. Por ejemplo, en los casos en que se espera que la variable de respuesta sea siempre positiva y varíe en un amplio rango, los cambios constantes de entrada conducen a variaciones geométricas, en lugar de variar constantemente, de salida. Como ejemplo, un modelo de predicción podría predecir que una disminución de 10 grados en la temperatura llevaría a 1,000 personas menos que visitan la playa y es poco probable que se generalicen bien en ambas playas pequeñas (por ejemplo, aquellas en las que la asistencia esperada fue de 50 a una temperatura particular) y en playas grandes ( por ejemplo, aquellos en los que la asistencia esperada fue de 10.000 a baja temperatura). El problema con este tipo de modelo de predicción implicaría que una caída de temperatura de 10 grados conduciría a 1,000 personas menos visitando la playa, una playa cuya asistencia esperada era de 50 a una temperatura más alta ahora se predeciría que tendría el valor de asistencia imposible de −950 . Lógicamente, un modelo más realista predeciría una tasa constante de aumento en la asistencia a la playa (por ejemplo, un aumento de 10 grados conduce a una duplicación en la asistencia a la playa, y una caída de 10 grados conduce a una reducción a la mitad de la asistencia). Dicho modelo se denomina modelo de respuesta exponencial (o modelo log-lineal, ya que se predice que el logaritmo de la respuesta variará linealmente).

De manera similar, un modelo que predice una probabilidad de hacer una opción de sí / no (una variable de Bernoulli) es incluso menos adecuado como modelo de respuesta lineal, ya que las probabilidades están limitadas en ambos extremos (deben estar entre 0 y 1). Imagine, por ejemplo, un modelo que predice la probabilidad de que una persona determinada vaya a la playa en función de la temperatura. Un modelo razonable podría predecir, por ejemplo, que un cambio en 10 grados hace que una persona tenga dos o más probabilidades de ir a la playa. Pero, ¿qué significa "dos veces más probable" en términos de probabilidad? No puede significar literalmente duplicar el valor de probabilidad (por ejemplo, 50% se convierte en 100%, 75% se convierte en 150%, etc.). Más bien, son las probabilidades las que se duplican: de las probabilidades 2: 1, las probabilidades 4: 1, las probabilidades 8: 1, etc. Tal modelo es un log-odds o un modelo logístico.

Los modelos lineales generalizados cubren todas estas situaciones al permitir variables de respuesta que tienen distribuciones arbitrarias (en lugar de simplemente distribuciones normales), y que una función arbitraria de la variable de respuesta (la función de enlace) varíe linealmente con los valores predichos. Por ejemplo, el caso anterior del número predicho de asistentes a la playa normalmente se modelaría con una distribución de Poisson y un enlace de registro, mientras que el caso de la probabilidad predicha de asistencia a la playa se modelaría normalmente con una distribución de Bernoulli (o distribución binomial, dependiendo exactamente de cómo se expresa el problema) y una función de enlace log-odds (o logit).

IntroducciónEditar

En un modelo lineal generalizado (GLM), se supone que cada resultado Y de las variables dependientes se genera a partir de una distribución particular en la familia exponencial, un amplio rango de distribuciones de probabilidad que incluye las distribuciones normal, binomial, Poisson y gamma, entre otras. . La media, μ, de la distribución depende de las variables independientes, X, por medio de:


 

donde

  es el valor esperado de  ;
  es el «predictor lineal», una combinación lineal de parámetros desconocidos  ;
  es la función de enlace.

Con esta notación, la varianza es típicamente una función   de la media:

 

Es conveniente si V sigue la distribución de la familia exponencial, pero puede ser simplemente que la varianza sea una función del valor predicho.

Los parámetros desconocidos, β, se suelen calcular con probabilidad máxima, máxima probabilidad o técnicas bayesianas.

Componentes del modeloEditar

El MLG consiste de tres elementos:

  1. Una función de distribución  , perteneciente a la familia exponencial.
  2. Un predictor lineal  .
  3. Una función de enlace   tal que  .

Distribución de probabilidadEditar

La familia exponencial de distribuciones sobredispersa es una generalización de la familia exponencial y el modelo de dispersión exponencial de distribuciones e incluye esas distribuciones de probabilidad, parametrizadas por θ  y Ƭ, cuyas funciones de densidad f (o función de masa de probabilidad, para el caso de una distribución discreta) se pueden expresar en la forma

 

El parámetro de dispersión, Ƭ , generalmente se conoce y generalmente está relacionado con la varianza de la distribución. Las funciones h(y, Ƭ), b(θ), Т(y). A (θ) y d (Ƭ) son conocidas. Muchas distribuciones comunes están en esta familia, incluyendo binomial, multinomial y binomial normal, exponencial, gamma, Poisson, Bernoulli y (para un número fijo de ensayos).

Para el escalar Y y θ, esto se reduce a:

 

Θ está relacionado con la media de la distribución. Si b(θ) es la función de identidad, se dice que la distribución está en forma canónica (o forma natural). Tenga en cuenta que cualquier distribución se puede convertir a una forma canónica reescribiendo θ como θ' y luego aplicar la transformación θ = b(θ '). Siempre es posible convertir A(θ) en términos de la nueva parametrización, incluso si b( θ') no es una función de uno a uno. Si, además, T(y) es la identidad y Ƭ se conoce, entonces θ se llama el parámetro canónico (o parámetro natural) y está relacionado con la media a través de

μ = E(Y) = ΔA(θ)

Para el escalar Y y θ, esto se reduce a

μ = E(Y) = A’(θ)

Bajo este escenario, la varianza de la distribución puede mostrarse como

Var(Y) = Δ2 A(θ)d(Ƭ).

Para el escalar Y y θ, esto se reduce a

Var(Y) = A’’(θ)d(Ƭ).

Predictor linealEditar

El predictor lineal es la cantidad que incorpora la información sobre las variables independientes en el modelo. El símbolo η ("eta" griego) denota un predictor lineal. Está relacionado con el valor esperado de los datos a través de la función de enlace.

η se expresa como combinaciones lineales (por lo tanto, "lineales") de parámetros desconocidos β. Los coeficientes de la combinación lineal se representan como la matriz de las variables independientes X. Por lo tanto, η puede expresarse como

η=Xβ.

Función de enlaceEditar

La función de enlace proporciona la relación entre el predictor lineal y la media de la función de distribución. Existen muchas funciones de enlace de uso común, y su elección se basa en varias consideraciones. Siempre hay una función de enlace canónico bien definida que se deriva del exponencial de la función de densidad de la respuesta. Sin embargo, en algunos casos tiene sentido tratar de hacer coincidir el dominio de la función de enlace con el rango de la media de la función de distribución, o usar una función de enlace no canónica con fines algorítmicos, por ejemplo, regresión probit Bayesiana.


Cuando se utiliza una función de distribución con un parámetro canónico θ, la función de enlace canónico es la función que expresa θ en términos de μ, es decir, θ = b(μ). Para las distribuciones más comunes, la media μ es uno de los parámetros en la forma estándar de la función de densidad de la distribución, y luego b(μ) es la función como se definió anteriormente que mapea la función de densidad en su forma canónica. Cuando se utiliza la función de enlace canónico, b(μ) = θ = Xβ que permite que XTY sea una estadística suficiente para β.

PruebaEditar

Máxima verosimilitudEditar

Las estimaciones de máxima verosimilitud se pueden encontrar usando un algoritmo de mínimos cuadrados iterativamente ponderados o un método de Newton-Raphson con actualizaciones de la forma:

Β(t+1) = β(t) + J-1(t))u(t)),

Donde J(β(t)) es la matriz de información observada (el negativo de la matriz de Hesse) y u(β(t)) es la función de puntuación; o un método de puntuación de Fisher:

Β(t+1) = β(t)  + I-1(t))u(t)),

Donde I(t)) es la matriz de información de Fisher. Tenga en cuenta que si se utiliza la función de enlace canónico, entonces son iguales.

Métodos bayesianosEditar

En general, la distribución posterior no se puede encontrar en forma cerrada y, por lo tanto, debe ser aproximada, generalmente utilizando aproximaciones de Laplace o algún tipo de método de Monte Carlo de cadena de Markov como el muestreo de Gibbs.

EjemplosEditar

Modelos lineales generalesEditar

Un posible punto de confusión tiene que ver con la distinción entre modelos lineales generalizados y el modelo lineal general, dos modelos estadísticos amplios. El modelo lineal general puede verse como un caso especial del modelo lineal generalizado con enlace de identidad y respuestas normalmente distribuidas. Como los resultados de interés más exactos se obtienen solo para el modelo lineal general, el modelo lineal general ha experimentado un desarrollo histórico algo más largo. Los resultados para el modelo lineal generalizado con enlace de no identidad son asintóticos (tienden a funcionar bien con muestras grandes).

Regresión linealEditar

Un ejemplo simple y muy importante de un modelo lineal generalizado (también un ejemplo de un modelo lineal general) es la regresión lineal. En la regresión lineal, el uso del estimador de mínimos cuadrados se justifica por el teorema de Gauss-Markov, que no supone que la distribución sea normal.

Sin embargo, desde la perspectiva de los modelos lineales generalizados, es útil suponer que la función de distribución es la distribución normal con varianza constante y la función de enlace es la identidad, que es el enlace canónico si se conoce la varianza.

Para la distribución normal, el modelo lineal generalizado tiene una expresión de forma cerrada para las estimaciones de máxima verosimilitud, lo que es conveniente. La mayoría de los otros GLM carecen de estimaciones de forma cerrada.

Datos binariosEditar

Cuando los datos de respuesta, Y, son binarios (que toman solo los valores 0 y 1), la función de distribución generalmente se elige para ser la distribución de Bernoulli y la interpretación de μi es la probabilidad, p, de que Yi tome el valor uno.

Hay varias funciones de enlace populares para funciones binomiales.

Función de enlace logitEditar

La función de enlace más típica es el enlace logit canónico:

 

Los GLM con esta configuración son modelos de regresión logística (o modelos logit).

Función de enlace Probit como opción popular de la función de distribución acumulativa inversa

Alternativamente, el inverso de cualquier función de distribución acumulativa continua (CDF) se puede usar para el enlace, ya que el rango del CDF es [0,1], el rango de la media binomial. El CDF normal φ es una opción popular y produce el modelo probit. Su enlace es

 

La razón para el uso del modelo probit es que una escala constante de la variable de entrada a un CDF normal (que se puede absorber a través de la escala equivalente de todos los parámetros) produce una función que es prácticamente idéntica a la función logit, pero probit Los modelos son más manejables en algunas situaciones que los modelos logit. (En un entorno bayesiano en el que las distribuciones anteriores normalmente distribuidas se colocan en los parámetros, la relación entre los anteriores normales y la función de enlace CDF normal significa que un modelo probit puede calcularse utilizando el muestreo de Gibbs, mientras que un modelo logit generalmente no puede).

Log-log complementario (cloglog)Editar

La función complementaria log-log también se puede utilizar:

 

Esta función de enlace es asimétrica y con frecuencia producirá resultados diferentes de las funciones de enlace logit y probit. El modelo de cloglog corresponde a aplicaciones en las que observamos cero eventos (por ejemplo, defectos) o uno o más, donde se supone que el número de eventos sigue la distribución de Poisson. El supuesto de Poisson significa que

 

donde μ es un número positivo que denota el inverso del número esperado de eventos. Si p representa la proporción de observaciones con al menos un evento, su complemento

 

y entonces

 

Un modelo lineal requiere que la variable de respuesta tome valores sobre toda la línea real. Dado que μ debe ser positivo, podemos imponer eso tomando el logaritmo y dejando que log (μ) sea un modelo lineal. Esto produce la transformación "cloglog".

 

Enlace de identidadEditar

El enlace de identidad g (p) = p también se usa a veces para que los datos binomiales produzcan un modelo de probabilidad lineal. Sin embargo, el enlace de identidad puede predecir "probabilidades" sin sentido menores que cero o mayores que uno. Esto se puede evitar utilizando una transformación como cloglog, probit o logit (o cualquier función de distribución acumulativa inversa). Un mérito principal del enlace de identidad es que se puede estimar utilizando matemáticas lineales, y otras funciones de enlace estándar son aproximadamente lineales que coinciden con el enlace de identidad cerca de p = 0.5.

Función de varianzaEditar

La función de variación para datos "cuasibinomiales" es:

 

donde el parámetro de dispersión τ es exactamente 1 para la distribución binomial. De hecho, la probabilidad binomial estándar omite τ. Cuando está presente, el modelo se denomina "cuasibinomial" y la probabilidad modificada se denomina cuasi probabilidad, ya que generalmente no es la probabilidad correspondiente a ninguna distribución de probabilidad real. Si τ excede de 1, se dice que el modelo exhibe una sobredispersión.

ExtensionesEditar

Datos correlacionados o agrupadosEditar

El GLM estándar asume que las observaciones no están correlacionadas. Se han desarrollado extensiones para permitir la correlación entre las observaciones, como ocurre, por ejemplo, en estudios longitudinales y diseños agrupados:

Las ecuaciones de estimación generalizadas (GEE) permiten la correlación entre las observaciones sin el uso de un modelo de probabilidad explícito para el origen de las correlaciones, por lo que no existe una probabilidad explícita. Son adecuados cuando los efectos aleatorios y sus variaciones no son de interés inherente, ya que permiten la correlación sin explicar su origen. El enfoque se centra en estimar la respuesta promedio sobre la población (efectos "promediados por la población") en lugar de los parámetros de regresión que permitirían predecir el efecto de cambiar uno o más componentes de X en un individuo determinado. Los GEE se utilizan generalmente junto con los errores estándar de Huber-White.


Los modelos mixtos lineales generalizados (GLMM) son una extensión de los GLM que incluyen efectos aleatorios en el predictor lineal, lo que proporciona un modelo de probabilidad explícito que explica el origen de las correlaciones. Las estimaciones de los parámetros "específicos del sujeto" resultantes son adecuadas cuando se enfoca en estimar el efecto de cambiar uno o más componentes de X en un individuo determinado. Los GLMM también se conocen como modelos multinivel y como modelo mixto. En general, el ajuste de los GLMM es más complejo e intensivo computacionalmente que el ajuste de los GEE.

Modelos de aditivos generalizados.Editar

Los modelos aditivos generalizados (GAM) son otra extensión de los GLM en los que el predictor lineal η no está restringido a ser lineal en las covariables X, sino que es la suma de las funciones de suavizado aplicadas a la  :

 

Las funciones de suavizado fi se estiman a partir de los datos. En general, esto requiere un gran número de puntos de datos y es computacionalmente intensivo.

Confusión con modelos lineales generalesEditar

El término "modelo lineal generalizado", y especialmente su abreviatura GLM, a veces se confunde con el término "modelo lineal general". El co-originador John Nelder ha expresado su pesar por esta terminología.

Ver tambiénEditar

    • Comparison of general and generalized linear models
    • Generalized linear array model
    • Tweedie distributions
    • GLIM (software)
    • Natural exponential familyVector gen
    • Veralized linear model (VGLM)
    • Quasi-variance

ReferenciasEditar