La regresión Ridge (también llamada regresión cresta) es un método de estimación de los coeficientes de modelos de regresión múltiple en escenarios en los que las variables independientes están muy correlacionadas.[1]​ Se ha utilizado en muchos campos, como la econometría, la química y la ingeniería.[2]​ También conocido como regularización de Tíjonov, en honor a Andrey Tikhonov, es un método de regularización de problemas mal planteados.[nota 1]​ Es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal, que se produce comúnmente en modelos con un gran número de parámetros.[3]​ En general, el método proporciona una mayor eficiencia en los problemas de estimación de parámetros a cambio de una cantidad tolerable de sesgo (ver compensación sesgo-varianza).[4]

La teoría fue introducida por primera vez por Hoerl y Kennard en 1970 en sus artículos de Technometrics "Ridge regressions: biased estimation of nonorthogonal problems" y "Ridge regressions: applications in nonorthogonal problems",[1][5][6]​ resultado de diez años de investigación en el campo del análisis de crestas.[7]

La regresión Ridge se desarrolló como una posible solución a la imprecisión de los estimadores de mínimos cuadrados cuando los modelos de regresión lineal tienen algunas variables independientes multicolineales (altamente correlacionadas) mediante la creación de un estimador de regresión de cresta (RR). Esto proporciona una estimación más precisa de los parámetros de la cresta, ya que su varianza y estimador cuadrático medio son a menudo más pequeños que los estimadores mínimos cuadrados derivados anteriormente.[2][8]

Descripción general editar

En el caso más sencillo, el problema de una matriz de momentos casi sinular   se alivia añadiendo elementos positivos a las diagonales, con lo que disminuye su número de condición. De forma análoga al estimador de mínimos cuadrados ordinarios, el estimador de cresta simple viene dado por:

 

Donde   es la regresión,   es la matriz de diseño,   es la matriz de identidad, y el parámetro ridge   sirve como constante que desplaza las diagonales de la matriz de momentos.[9]​ Puede demostrarse que este estimador es la solución al problema de mínimos cuadrados sujeto a la restricción  , que puede expresarse como un Lagrangiano:

 

que muestra que   no es más que el multiplicador de Lagrange de la restricción.[10]​ Típicamente,   se elige según un criterio heurístico, de modo que la restricción no se satisfará exactamente. Concretamente en el caso de  , en el que la restricción no es vinculante, el estimador de cresta se reduce a mínimos cuadrados ordinarios. A continuación se analiza un enfoque más general de la regularización de Tíjonov.

Historia editar

La regularización de Tíjonov se inventó de forma independiente en muchos contextos diferentes. Se dio a conocer ampliamente a través de su aplicación a ecuaciones integrales en los trabajos de Andrey Tikhonov[11][12][13][14][15]​ y David L. Phillips.[16]​ Algunos autores utilizan el término regularización Tíjonov-Phillips. El caso de dimensión finita fue expuesto por Arthur E. Hoerl, que adoptó un enfoque estadístico,[17]​ y por Manus Foster, que interpretó este método como un filtro de Wiener-Kolmogorov (Kriging).[18]​ Siguiendo a Hoerl, se conoce en la literatura estadística como regresión ridge,[19]​ llamada así por el análisis ridge ("ridge" se refiere a la trayectoria desde el máximo restringido).[20]

Regularización de Tíjonov editar

Supongamos que para una matriz conocida   y el vector  , queremos encontrar un vector   de forma que:

 

donde   y   pueden ser de diferentes tamaños y   puede no ser cuadrado.

El enfoque estándar es la regresión lineal por mínimos cuadrados ordinarios. Sin embargo, si ninguna   satisface la ecuación o más de una   lo satisface, es decir, la solución no es única, se dice que el problema está mal planteado. En tales casos, la estimación por mínimos cuadrados ordinarios conduce a un sistema de ecuaciones sobredeterminado o, más a menudo, subdeterminado. La mayoría de los fenómenos del mundo real tienen el efecto de filtros de paso bajo en la dirección de avance, donde   mapea   hacia  . Por lo tanto, al resolver el problema inverso, la cartografía inversa funciona como un filtro de paso alto que tiene la tendencia indeseable de amplificar el ruido (los valores propios / valores singulares son mayores en la cartografía inversa donde eran menores en la cartografía directa). Además, los mínimos cuadrados ordinarios anulan implícitamente cada elemento de la versión reconstruida de   que está en el espacio nulo de  , en lugar de permitir que un modelo se utilice como prior para  . Los mínimos cuadrados ordinarios buscan minimizar la suma de los residuos al cuadrado, que puede escribirse de forma compacta como:

 

donde   es la norma euclidiana.

Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización:

 

para una matriz de Tíjonov convenientemente elegida  . En muchos casos, esta matriz se elige como múltiplo escalar de la matriz identidad  , dando preferencia a las soluciones con normas más pequeñas; esto se conoce como regularización L2 .[21]​ En otros casos, pueden utilizarse operadores de paso alto (por ejemplo, un operador de diferencia o un operador de Fourier ponderado) para imponer la suavidad si se cree que el vector subyacente es mayoritariamente continuo. Esta regularización mejora el condicionamiento del problema, permitiendo así una solución numérica directa. Una solución explícita, denotada por   es dado por

 

El efecto de la regularización puede variar en función de la escala de la matriz  . Para   se reduce a la solución por mínimos cuadrados no regularizada, siempre que (ATA)-1 exista.

La regularización de L2 se utiliza en muchos contextos aparte de la regresión lineal, como la clasificación con regresión logística o máquinas de vectores de soporte,[22]​ y la factorización de matrices.[23]

Aplicación a los resultados de ajuste existentes editar

Dado que la Regularización de Tíjonov simplemente añade un término cuadrático a la función objetivo en los problemas de optimización, es posible hacerlo después de que se haya producido la optimización no regularizada. Por ejemplo, si el problema anterior con   se obtiene la solución   la solución en presencia de   puede expresarse como sigue:

 

con la "matriz de regularización"  

Si el ajuste de parámetros viene acompañado de una matriz de covarianza de las incertidumbres estimadas de los parámetros   entonces la matriz de regularización será

 

y el resultado regularizado tendrá una nueva covarianza

 

En el contexto de ajustes de verosimilitud arbitrarios, esto es válido, siempre que la aproximación cuadrática de la función de verosimilitud sea válida. Esto significa que, siempre que la perturbación del resultado no regularizado sea pequeña, se puede regularizar cualquier resultado que se presente como un punto de mejor ajuste con una matriz de covarianza. No se necesita un conocimiento detallado de la función de verosimilitud subyacente.[24]

Regularización de Tikhonov generalizada editar

Para distribuciones normales multivariantes generales para   y el error de los datos, se puede aplicar una transformación de las variables para reducir al caso anterior. De forma equivalente, se puede buscar un   para minimizar:

 

donde se usó   para representar la norma ponderada al cuadrado   (compárese con la distancia de Mahalanobis). En la interpretación bayesiana   es la matriz de covarianza inversa de  ,   es el valor esperado de  , y   es la matriz de covarianza inversa de  . La matriz de Tíjonov viene dada entonces como una factorización de la matriz   (por ejemplo, la factorización de Cholesky) y se considera un filtro de blanqueamiento.

Este problema generalizado tiene una solución óptima   que puede escribirse explícitamente mediante la fórmula

 

o equivalentemente, cuando Q no es una matriz nula:

 

Regularización de Lavrentyev editar

En algunas situaciones, se puede evitar el uso de la transposición   a propuesta de Mikhail Lavrentyev.[25]​ Por ejemplo, si   es simétrica positiva definida, es decir  , también lo es su inversa  , que puede utilizarse para establecer la norma ponderada al cuadrado   en la regularización generalizada de Tikhonov, lo que lleva a minimizar:

 

o, lo que es lo mismo, hasta un término constante,

 

Este problema de minimización tiene una solución óptima   que puede escribirse explícitamente mediante la fórmula

 

que no es sino la solución del problema generalizado de Tikhonov donde  

La regularización de Lavrentyev, si procede, es ventajosa respecto a la regularización original de Tikhonov, ya que la matriz de Lavrentyev   puede estar mejor condicionada, es decir, tener un número de condición menor, en comparación con la matriz de Tikhonov  

Regularización en el espacio de Hilbert editar

Normalmente, los problemas lineales discretos mal condicionados son el resultado de la discretización de ecuaciones integrales, y se puede formular una regularización de Tíjonov en el contexto original de dimensión infinita. En lo anterior podemos interpretar   como operador compacto en espacios de Hilbert, y   y   como elementos del dominio y rango de  . El operador   es entonces un operador autoadjunto acotado invertible.

Relación con la descomposición de valores singulares y el filtro de Wiener editar

Con   esta solución de mínimos cuadrados puede analizarse de forma especial mediante la descomposición de valores singulares. Dada la descomposición del valor singular:

 

con valores singulares  , la solución regularizada de Tikhonov puede expresarse como

 

donde   tiene valores diagonales

 

y es cero en el resto. Esto demuestra el efecto del parámetro de Tikhonov en el número de condición del problema regularizado. Para el caso generalizado, puede obtenerse una representación similar utilizando una descomposición generalizada de valores singulares.[26]

Por último, está relacionado con el filtro de Wiener:

 

donde los pesos Wiener son   y   es el rango de  .

Determinación del factor de Tijonov editar

El parámetro óptimo de regularización   suele ser desconocida y, a menudo, en los problemas prácticos se determina mediante un método ad hoc. Un posible enfoque se basa en la interpretación bayesiana que se describe a continuación. Otros enfoques son el principio de discrepancia, la validación cruzada, el método de la curva en L,[27]​ la máxima verosimilitud restringida y el estimador insesgado del riesgo predictivo. Grace Wahba demostró que el parámetro óptimo, en el sentido de la validación cruzada dejando uno fuera minimiza.[28][29]

 

donde   es la suma residual de cuadrados, y   es el número efectivo de grados de libertad.

Utilizando la descomposición SVD anterior, podemos simplificar la expresión anterior:

 

 

y

 

Relación con la formulación probabilística editar

La formulación probabilística de un problema inverso introduce (cuando todas las incertidumbres son gaussianas) una matriz de covarianza   que representa las incertidumbres a priori sobre los parámetros del modelo, y una matriz de covarianza   que representan las incertidumbres sobre los parámetros observados.[30]​ En el caso especial de que estas dos matrices sean diagonales e isótropas,   y   y, en este caso, las ecuaciones de la teoría inversa se reducen a las ecuaciones anteriores, con  .

Interpretación bayesiana editar

Aunque a primera vista la elección de la solución de este problema regularizado pueda parecer artificial, y de hecho la matriz   parece bastante arbitrario, el proceso puede justificarse desde un punto de vista bayesiano.[31]​ Obsérvese que para un problema mal planteado hay que introducir necesariamente algunos supuestos adicionales para obtener una solución única. Estadísticamente, la distribución de probabilidad ''a priori'' de   a veces se considera una distribución normal multivariante. En aras de la simplicidad, se parte de los siguientes supuestos: las medias son cero; sus componentes son independientes; los componentes tienen la misma desviación típica  . Los datos también están sujetos a errores, y los errores en   también se suponen independientes con media y desviación típica nulas  . Bajo estos supuestos, la solución regularizada por Tikhonov es la solución más probable dados los datos y la distribución a priori de   según el teorema de Bayes.[32]

Si el supuesto de normalidad se sustituye por los supuestos de homocedasticidad e incorrelación de errores, y si se sigue suponiendo que la media es cero, el teorema de Gauss-Markov implica que la solución es el estimador lineal insesgado mínimo.

Véase también editar

  • El estimador LASSO es otro método de regularización en estadística

Notas editar

  1. < En estadística, el método se conoce como regresión Ridge, en aprendizaje automático, y sus modificaciones se conocen como decaimiento del peso, y con múltiples descubrimientos independientes, también se conoce como método Tikhonov-Miller, método Phillips-Twomey, método de inversión lineal restringida, regularización L2 y método de regularización lineal. Está relacionado con el algoritmo de Levenberg-Marquardt para problemas de mínimos cuadrados no lineales.>

Referencias editar

  1. a b Hilt, Donald E.; Hilt, Donald E.; Seegrist, Donald W.; States, United; Northeastern Forest Experiment Station (Radnor, Pa ) (1977). Ridge, a computer program for calculating ridge regression estimates. Dept. of Agriculture, Forest Service, Northeastern Forest Experiment Station. Consultado el 30 de marzo de 2024. 
  2. a b Gruber, Marvin (26 de febrero de 1998). Improving Efficiency by Shrinkage: The James--Stein and Ridge Regression Estimators (en inglés). CRC Press. ISBN 978-0-8247-0156-7. Consultado el 30 de marzo de 2024. 
  3. Kennedy, Peter (2003). A Guide to Econometrics (en inglés). MIT Press. ISBN 978-0-262-61183-1. Consultado el 30 de marzo de 2024. 
  4. Gruber, Marvin (26 de febrero de 1998). Improving Efficiency by Shrinkage: The James--Stein and Ridge Regression Estimators (en inglés). CRC Press. ISBN 978-0-8247-0156-7. Consultado el 30 de marzo de 2024. 
  5. Hoerl, Arthur E.; Kennard, Robert W. (1970). «"Ridge Regression: Biased Estimation for Nonorthogonal Problems".». Technometrics. doi:10.2307/1267351. 
  6. Hoerl, Arthur E.; Kennard, Robert W. (1970). «"Ridge Regression: Applications to Nonorthogonal Problems".». Technometrics. doi:10.2307/1267352. 
  7. Beck, James Vere; Arnold, Kenneth J. (1977). Parameter Estimation in Engineering and Science (en inglés). James Beck. ISBN 978-0-471-06118-2. Consultado el 30 de marzo de 2024. 
  8. Jolliffe, I. T. (9 de mayo de 2006). Principal Component Analysis (en inglés). Springer Science & Business Media. ISBN 978-0-387-22440-4. Consultado el 30 de marzo de 2024. 
  9. Khalaf, Ghadban; Shukur, Ghazi (2005). «"Choosing Ridge Parameter for Regression Problems"». Communications in Statistics – Theory and Methods. doi:10.1081/STA-200056836. 
  10. van Wieringen, Wessel (2021). "Lecture notes on ridge regression". 
  11. «"Об устойчивости обратных задач"». web.archive.org. Consultado el 30 de marzo de 2024. 
  12. Tikhonov, A. N. (1963). «"О решении некорректно поставленных задач и методе регуляризации".». Doklady Akademii Nauk SSSR. «Translated in "Solution of incorrectly formulated problems and the regularization method". Soviet Mathematics». 
  13. Tikhonov, A. N.; V. Y. Arsenin (1977). «Solution of Ill-posed Problems.». Washington: Winston & Sons. ISBN 0-470-99124-0. 
  14. Numerical Methods for the Solution of Ill-Posed Problems (en inglés). Consultado el 30 de marzo de 2024. 
  15. Nonlinear Ill-Posed Problems (en inglés). Consultado el 30 de marzo de 2024. 
  16. Phillips, David L. (1 de enero de 1962). «A Technique for the Numerical Solution of Certain Integral Equations of the First Kind». Journal of the ACM 9 (1): 84-97. ISSN 0004-5411. doi:10.1145/321105.321114. Consultado el 30 de marzo de 2024. 
  17. Hoerl, Arthur E. (1962). «"Application of Ridge Analysis to Regression Problems".». Chemical Engineering Progress. 
  18. Foster, M. (1961). «"An Application of the Wiener-Kolmogorov Smoothing Theory to Matrix Inversion"». Journal of the Society for Industrial and Applied Mathematics. 
  19. Hoerl, A. E.; R. W. Kennard (1970). «"Ridge regression: Biased estimation for nonorthogonal problems"». Technometrics. doi:10.1080/00401706.1970.10488634. 
  20. Hoerl, Roger W. (1 de octubre de 2020). «Ridge Regression: A Historical Context». Technometrics (en inglés) 62 (4): 420-425. ISSN 0040-1706. doi:10.1080/00401706.2020.1742207. Consultado el 30 de marzo de 2024. 
  21. Ng, Andrew Y. (2004). «Feature selection, L1 vs. L2 regularization, and rotational invariance». Proc. ICML. 
  22. R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (2008). «"LIBLINEAR: A library for large linear classification"». Journal of Machine Learning Research. 
  23. Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo (2012). «"Online nonnegative matrix factorization with robust stochastic approximation".». IEEE Transactions on Neural Networks and Learning Systems. PMID 24807135. doi:10.1109/TNNLS.2012.2197827. 
  24. Koch, Lukas (2022). «"Post-hoc regularisation of unfolded cross-section measurements".». Journal of Instrumentation. doi:10.1088/1748-0221/17/10/P10021. 
  25. Lavrentiev, M. M. (1967). «Some Improperly Posed Problems of Mathematical Physics». New York: Springer. 
  26. Hansen, Per Christian (1998). «Rank-Deficient and Discrete Ill-Posed Problems: Numerical Aspects of Linear Inversion». Philadelphia, USA: SIAM. ISBN 978-0-89871-403-6. 
  27. P. C. Hansen. "The L-curve and its use in the numerical treatment of inverse problems". 
  28. Wahba, G. (1990). «"Spline Models for Observational Data"». CBMS-NSF Regional Conference Series in Applied Mathematics. Society for Industrial and Applied Mathematics. 
  29. Golub, G.; Heath, M.; Wahba, G. (1979). «"Generalized cross-validation as a method for choosing a good ridge parameter"». Technometrics. doi:10.1080/00401706.1979.10489751. 
  30. Tarantola, Albert (2005). «Inverse Problem Theory and Methods for Model Parameter Estimation». Philadelphia: Society for Industrial and Applied Mathematics (SIAM). ISBN 0-89871-792-2. 
  31. Greenberg, Edward; Webster, Charles E. Jr. (1983). «Advanced Econometrics: A Bridge to the Literature.». New York: John Wiley & Sons. ISBN 0-471-09077-8. 
  32. Vogel, Curtis R. (2002). «Computational methods for inverse problems.». Philadelphia: Society for Industrial and Applied Mathematics. ISBN 0-89871-550-4. 

Lectura adicional editar