Regresión de Poisson

En estadística, la regresión de Poisson es un tipo de modelo lineal generalizado en el que la variable de respuesta tiene una distribución de Poisson y el logaritmo de su valor esperado puede ser modelado por una combinación lineal de parámetros desconocidos, es decir, el logaritmo es la función de enlace canónica. Se usa para modelar datos de conteo (número de veces que ocurre cierto fenómeno aleatorio) y tablas de contingencia.

Formulación matemática editar

La regresión de Poisson se utiliza para modelar fenómenos que pueden representarse mediante una variable aleatoria Y tal que para un valor $x\in \mathbb {R} ^{n}$ de unas variables independientes,

$Y_{|x}~\sim \mathrm {Poisson} (\exp(a'x+b))\,$ ,

es decir, el valor de Y condicionado a x sigue una distribución de Poisson de parámetro $\exp(a'x+b)$ para ciertos valores $a\in \mathbb {R} ^{n}$ y $b\in \mathbb {R}$ . En concreto, debido a las propiedades de la distribución de Poisson, el valor de la media predicha es

$\log(\mathbb {E} (Y|x))=a'x+b\,$ .

A veces, por abreviar, se escribe simplemente

$Y_{|x}~\sim \mathrm {Poisson} (\exp(\theta 'x))\,$ ,

donde x es un vector n+1-dimensional que consta de n variables independientes y una constante, usualmente 1. En este caso concreto, θ es simplemente a concatenado a b.

Si Y_i son observaciones independientes de la variable aleatoria Y , la estimación de θ suele realizarse utilizando el método de la máxima verosimilitud. Este estimador no admite una forma cerrada y debe calcularse mediante métodos numéricos. Como la superficie de probabilidad para este tipo de modelos es siempre convexa, el método de Newton u otros métodos basados en el gradiente son adecuados.^{[cita requerida]} No obstante, los paquetes estadísticos habituales son capaces de realizar automáticamente el ajuste de este tipo de modelos.

Aplicaciones editar

El modelo de Poisson es apropiado cuando la variable dependiente es un conteo, como por ejemplo, el número de llamadas que llegan a una central telefónica, que dependen de otras variables como, por ejemplo el día de la semana o la hora del día. Los sucesos tienen que ser independientes.

Al aplicar este tipo de modelos a datos reales, en algunos casos, se dan fenómenos tales como:

Sobredispersión: Una peculiaridad de la distribución de Poisson es que su media es igual a su varianza. Sin embargo, en ciertos conjuntos de datos se observa una varianza superior a la esperada. El fenómeno se conoce como sobredispersión e indica que el modelo no es adecuado. Un motivo frecuente es la omisión de alguna variable relevante. En algunos casos se aconseja recurrir a la distribución binomial negativa.^[1]^[2]
Exceso de ceros: Otro fenómeno que aparece en la práctica es el del exceso de ceros. Puede deberse a que existen dos fenómenos estadísticos que se entrecruzan: uno genera ceros; otro, los valores no nulos. Esto ocurre, por ejemplo, al tratar de modelar el número de cigarrillos fumados por cada uno de los integrantes de un grupo de personas: puede que algunos de ellos, simplemente, no sean fumadores.

Implementaciones editar

Implementaciones de este modelo existen en paquetes estadísticos tales como:

SPSS, usando el comando GENLIN
Matlab Statistics Toolbox: funciones "glmfit" y "glmval".^[3]
Microsoft Excel: a través de extensiones tales como XPost
SAS: función GENMOD
Stata: procedimiento "poisson"
R: la función glm()

Ejemplo de ajuste de un modelo de Poisson con R editar

El siguiente código muestra cómo ajustar mediante un modelo de regresión de Poisson un conjunto de datos recopilados por Dobson.^[4]^[5]

     # Construcción de los datos
     counts <- c(18,17,15,20,10,20,25,13,12)
     outcome <- gl(3,1,9)
     treatment <- gl(3,3)

     # Ajuste del modelo
     glm.D93 <- glm(counts ~ outcome + treatment, family=poisson())

     # Resumen del modelo
     anova(glm.D93)
     summary(glm.D93)

Bibliografía editar

Cameron, A.C. and P.K. Trivedi (1998). Regression analysis of count data, Cambridge University Press. ISBN 0-521-63201-3
Christensen, Ronald (1997). Log-linear models and logistic regression. Springer Texts in Statistics (Second edición). Nueva York: Springer-Verlag. pp. xvi+483. ISBN 0-387-98247-7. MR 1633357.
Hilbe, J.M. (2007). Negative Binomial Regression, Cambridge University Press. ISBN 978-0-521-85772-7

Referencias editar

↑ Paternoster R, Brame R (1997). «Multiple routes to delinquency? A test of developmental and general theories of crime». Criminology 35: 45-84.
↑ Berk R, MacDonald J (2008). «Overdispersion and Poisson regression». Journal of Quantitative Criminology 24: 269-284. Archivado desde el original el 9 de abril de 2011.
↑ gmlfit
↑ Dobson, A. J. (1990) An Introduction to Generalized Linear Models London: Chapman and Hall.
↑ Fitting Generalized Linear Models, página de ayuda de la función glm() de R

Datos: Q954529

[1] Paternoster R, Brame R (1997). «Multiple routes to delinquency? A test of developmental and general theories of crime». Criminology 35: 45-84.

[2] Berk R, MacDonald J (2008). «Overdispersion and Poisson regression». Journal of Quantitative Criminology 24: 269-284. Archivado desde el original el 9 de abril de 2011.

[3] t

[4] Dobson, A. J. (1990) An Introduction to Generalized Linear Models London: Chapman and Hall.

[5] Fitting Generalized Linear Models, página de ayuda de la función glm() de R

[1]

[2]

[3]

[4]

[5]