Diferencia entre revisiones de «Regresión lineal»
Contenido eliminado Contenido añadido
Sin resumen de edición |
|||
Línea 1:
{{Artículo bueno}}
{{otros usos|Función lineal (desambiguación)}}
[[Archivo:Linear regression.svg|350px|thumb|Ejemplo de una regresión lineal con una [[variable dependiente]] y una [[variable independiente]].]]
En [[estadística]] la '''regresión lineal''' o '''ajuste lineal''' es un [[método]] [[Matemáticas|matemático]] que [[Modelo matemático|modela]] la relación entre una [[variable dependiente]] ''Y'', las [[Variable independiente|variables independientes]] ''X<sub>i</sub>'' y un término [[Aleatoriedad|aleatorio]] ε. Este modelo puede ser expresado como:
{{ecuación|<math>Y_t = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots +\beta_p X_p + \varepsilon</math>||left}}
<math>Y_t</math>: variable dependiente, explicada o regresando.
<math>X_1, X_2, \cdots, X_p </math>: variables explicativas, independientes o regresores.
<math>\beta_0,\beta_1,\beta_2,\cdots ,\beta_p </math>: parámetros, miden la influencia que las variables explicativas tienen sobre el
regresando.
donde <math>\beta_0</math> es la intersección o término "constante", las <math>\beta_i \ (i > 0)</math> son los parámetros respectivos a cada variable independiente, y <math>p</math> es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la [[regresión no lineal]].
== Historia ==
La primera forma de regresión lineal documentada fue el [[Mínimos cuadrados|método de los mínimos cuadrados]] que fue publicada por [[Adrien Marie Legendre|Legendre]] en [[1805]],<ref ]], Gauss publicó un trabajo en donde desarrollaba de manera más profunda el método de los mínimos cuadrados,<ref name="Gauss2">C.F. Gauss. ''Theoria combinationis observationum erroribus minimis obnoxiae''. (1821/1823)</ref> y en dónde se incluía una versión del [[teorema de minino]].
=== Etimología ===
El término ''regresión'' se utilizó por primera vez en el estudio de [[variables]] [[Antropometría|antropométricas]]: al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían una estatura muy superior al [[valor medio]], tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al [[promedio]].<ref name=etim>[http://www.curvefit.com/linear_regression.htm Introduction to linear regression] Curvefit.com (en inglés)</ref> La constatación [[método empírico|empírica]] de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.
El término ''lineal'' se emplea para distinguirlo del resto de técnicas de [[Análisis de la regresión|regresión]], que emplean modelos basados en cualquier clase de [[función matemática]]. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico mucho más extenso por parte de la [[matemática]] y la [[estadística]].
Pero bien, como se ha dicho, podemos usar el término lineal para distinguir modelos basados en cualquier clase de aplicación.
== El modelo de regresión lineal ==
El modelo lineal relaciona la [[variable dependiente]] ''Y'' con ''K'' variables explícitas <math> X_k </math> ''(k = 1,...K)'', o cualquier [[transformación]] de éstas que generen un [[hiperplano]] de [[Variable (matemáticas)|parámetros]] <math> \beta_k </math> desconocidos:
donde <math> \varepsilon </math> es la [[perturbación]] [[Aleatoriedad|aleatoria]] que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el [[azar]], y es la que confiere al modelo su carácter [[estocástico]].
En el caso más sencillo, con una sola variable explícita, el [[hiperplano]] es una [[recta]]:
{{ecuación|<math> Y = \beta_1 + \beta_2 X_2 + \varepsilon</math>|3|left}}
El problema de la regresión consiste en elegir unos [[valor numérico|valores]] determinados para los parámetros desconocidos <math>\beta_k</math>, de modo que la [[ecuación]] quede completamente especificada.
Para ello se necesita un conjunto de observaciones. En una observación i-ésima ''(i= 1,... I)'' cualquiera, se registra el comportamiento simultáneo de la [[variable dependiente]] y las variables explícitas (las perturbaciones [[Aleatoriedad|aleatorias]] se suponen no observables).
{{ecuación|<math>
Los valores escogidos como [[estimador]]es de los parámetros <math>\hat{\beta_k}</math>, son los [[Coeficiente (matemáticas)|coeficientes]] de regresión sin que se pueda garantizar que coincida
n con parámetros reales del proceso generador. Por tanto, en
{{ecuación|<math> Y_i = \sum \hat{\beta_k} X_{ki} + \hat{\varepsilon_i}</math>|5|left}}
Los valores <math> \hat{\varepsilon_i} </math> son por su parte [[Estimación|estimaciones]] o errores de la perturbación aleatoria.
== Hipótesis del modelo de regresión lineal clásico ==
1. Esperanza matemática nula.
<math>E(\varepsilon_i) = 0</math>
Para cada valor de X la perturbación tomará distintos valores de forma aleatoria, pero no tomará
sistemáticamente valores positivos o negativos, sino que se supone tomará algunos valores
mayores que cero y otros menores que cero, de tal forma que su valor esperado sea cero.
2. Homocedasticidad
<math>Var(\varepsilon_t) = E(\varepsilon_t - E \varepsilon_t)^2 = E \varepsilon_t^2 = \sigma^2 </math> para todo t
Todos los términos de la perturbación tienen la misma varianza que es desconocida.
La dispersión de cada <math>\varepsilon_t</math> en torno a su valor esperado es siempre la misma.
3. Incorrelación.
<math>Cov(\varepsilon_t,\varepsilon_s ) = (\varepsilon_t - E \varepsilon_t) (\varepsilon_s - E \varepsilon_s) = E \varepsilon_t \varepsilon_s = 0 </math> para todo t,s con t distinto de s
Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no están correlacionadas. Esto implica que el valor de la perturbación para cualquier observación muestral no viene influenciado por los valores de las perturbaciones correspondientes a otras observaciones muestrales.
4. Regresores no estocásticos.
5. No existen relaciones lineales exactas entre los regresores.
6. <math>T > k + 1 </math>
Suponemos que no existen errores de [[Especificación (Análisis de la regresión)|especificación]] en el modelo, ni errores de medida en las variables explicativas
7. Normalidad de las perturbaciones
<math> \varepsilon \sim N(0, \sigma^2 )</math>
== Supuestos del modelo de regresión lineal ==
Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes supuestos:<ref name=supuestos>[http://www.ucm.es/info/socivmyt/paginas/profesorado/benitacompostela/tema2.doc "Análisis de regresión lineal"], [[Universidad Complutense de Madrid]]</ref>
# Que la relación entre las variables sea lineal.
# Que los errores en la medición de las variables explicativas sean independientes entre sí.
# Que los errores tengan varianza constante. ([[Homocedasticidad]])
# Que los errores tengan una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).
# Que el error total sea la suma de todos los errores.
== Tipos de modelos de regresión lineal ==
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
=== Regresión lineal simple ===
Sólo se maneja una [[variable independiente]], por lo que sólo cuenta con dos [[Variable (matemáticas)|parámetros]]. Son de la forma:<ref name=utn>''"Fórmulas", Probabilidad y Estadística.'' Cs. Básicas. U.D.B. Matemática. [[Universidad Tecnológica Nacional]], [[Facultad Regional Buenos Aires]]. Editorial CEIT-FRBA. (Código BM2BT2)</ref>
{{ecuación|<math> Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i</math>|6|left}}
donde <math>\varepsilon_i</math> es el error asociado a la medición del valor <math>X_i</math> y siguen los supuestos de modo que <math>\varepsilon_i \sim N(0,\sigma^2)</math> (media cero, [[varianza]] constante e igual a un <math>\sigma</math> y <math>\varepsilon_i \perp \varepsilon_j</math> con <math>i\neq j</math>).
==== Análisis ====
Dado el modelo de regresión simple, si se calcula la [[esperanza]] (valor esperado) del valor ''Y'', se obtiene:<ref name=modreg>[http://www.einsteinnet.com/econometria/Introeconometria/regsimple.htm Modelo de regresión lineal simple.] EinsteinNet.</ref>
{{ecuación|<math>E(y_i) = \hat{y_i}=E(\beta_0) + E(\beta_1 x_i) + E(\varepsilon_i)</math>|7|left}}
[[Derivada|Derivando]] respecto a <math>\hat{\beta}_0</math> y <math>\hat{\beta}_1</math> e igualando a cero, se obtiene:<ref name=modreg />
{{ecuación|<math>\frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_0} = 0 </math>|9|left}}
{{ecuación|<math>\frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_1} = 0 </math>|10|left}}
Obteniendo dos ecuaciones denominadas [[Ecuación normal|ecuaciones normales]] que generan la siguiente [[raíz de una función|solución]] para ambos parámetros:<ref name=utn />
{{ecuación|<math> \hat{\beta_1} = \frac { \sum x \sum y - n \sum xy } { \left ( \sum x \right ) ^ 2 - n \sum x^2 } = \frac{ \sum (x-\bar{x})(y-\bar{y} ) }{\sum ( x - \bar{x})^2 }</math>|11|left}}
{{ecuación|<math> \hat{\beta_0} = \frac { \sum y - \hat{\beta}_1 \sum x } { n } = \bar{y} - \hat{\beta_1} \bar{x}</math>|12|left}}
La interpretación del parámetro medio <math>{\beta_1}</math> es que un incremento en Xi de una unidad, Yi incrementará en <math>{\beta_1}</math>'''
=== Regresión lineal múltiple ===
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma manera, es posible analizar la relación entre dos o más variables a través de ecuaciones, lo que se denomina '''regresión múltiple''' o '''regresión lineal múltiple'''.
Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionadas entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.
Maneja varias [[Variable independiente|variables independientes]]. Cuenta con varios parámetros. Se expresan de la forma:<ref name=regmul>[http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.asp Técnicas de regresión: Regresión Lineal Múltiple.] ''Pértega Díaz, S., Pita Fernández, S.'' Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario de [[La Coruña]] ([[España]])</ref>
{{ecuación|<math> Y_i = \beta_0 + \sum \beta_i X_{ip} + \varepsilon_i</math>|13|left}}
donde <math>\varepsilon_i</math> es el error asociado a la medición <math>i</math> del valor <math>X_{ip}</math> y siguen los supuestos de modo que <math>\varepsilon_i \sim N(0,\sigma^2)</math> (media cero, [[varianza]] constante e igual a un <math>\sigma</math> y <math>\varepsilon_i \perp \varepsilon_j</math> con <math>i\neq j</math>).
== Rectas de regresión ==
Las rectas de regresión son las [[recta]]s que mejor se ajustan a la nube de puntos (o también llamado [[diagrama de dispersión]]) generada por una [[distribución binomial]].
Matemáticamente, son posibles dos rectas de máximo ajuste:<ref>[http://descartes.cnice.mec.es/materiales_didacticos/bidimensional_lbarrios/regresion_est.htm Apunte sobre Rectas de regresión.] Ministerio de Educación y Ciencia. Gobierno de [[España]].</ref>
* La recta de regresión de ''Y'' sobre ''X'':
{{ecuación|<math>y = \bar{y} + \frac{\sigma_{xy}}{\sigma_{x}^2}(x - \bar{x})</math>|14|left}}
* La recta de regresión de ''X'' sobre ''Y'':
{{ecuación|<math>x = \bar{x} + \frac{\sigma_{xy}}{\sigma_{y}^2}(y - \bar{y})</math>|15|left}}
La [[correlación]] (''"r"'') de las rectas determinará la calidad del ajuste. Si ''r'' es cercano o igual a 1, el ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el modelo obtenido resulta verdaderamente representativo); si ''r'' es cercano o igual a 0, se tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad).
Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de la [[distribución]].
== Aplicaciones de la regresión lineal ==
=== Líneas de tendencia ===
{{VT|Tendencia}}
Una ''línea de tendencia'' representa una [[tendencia]] en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el [[PBI]], el [[precio del petróleo]] o el valor de las [[acciones]]) han aumentado o decrementado en un determinado período.<ref name=tendencia>[http://www.paritech.com/paritech-site/education/technical/indicators/trend/linear3.asp Utilización de las líneas de tendencia], Paritech (en inglés)</ref> Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas [[estadística]]s como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.
=== Medicina ===
En [[medicina]], las primeras evidencias relacionando la [[mortalidad]] con el [[fumar]] [[tabaco]]<ref>Doll R, Peto r, Wheatley K, Gray R et al. ''Mortality in relation to smoking: 40 years' observations on male British doctors ''.[[BMJ]] 1994;309:901-911 (8 de octubre]</ref> vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir [[Relación espuria|correlaciones espurias]].
En el caso del [[tabaquismo]], los investigadores incluyeron el estado socio-económico para asegurarse que los efectos de [[mortalidad]] por [[tabaquismo]] no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.<ref name=tabaco>[http://ajrccm.atsjournals.org/cgi/content/full/158/1/170 "Environmental Tobacco Smoke and Adult Asthma"] Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, [[Universidad de California]], [[San Francisco (California)|San Francisco]], [[California]]. (en inglés)</ref><ref name=tabaco1>[http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S0036-36342005000500002&lng=pt Efecto del tabaquismo, los síntomas respiratorios y el asma sobre la espirometría de adultos de la Ciudad de México], Justino Regalado-Pineda; Alejandro Gómez-Gómez; Javier Ramírez-Acosta; Juan Carlos Vázquez-García</ref> En el ejemplo del [[tabaquismo]], un [[hipótesis (método científico)|hipotético]] [[gen]] podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de [[tabaco]]. Por esta razón, en la actualidad las [[Prueba controlada aleatoria|pruebas controladas aleatorias]] son consideradas mucho más confiables que los análisis de regresión.
=== Informática ===
Ejemplo de una rutina que utiliza una recta de regresión lineal para proyectar un valor futuro:
Código escrito en [[PHP]]
<source lang="php">
<?php
//Licencia: GNU/GPL
$xarray=array(1, 2, 3, 4, 5 ); //Dias
$yarray=array(5, 5, 5, 6.8, 9); //Porcentaje de ejecucion
$pm=100; //Valor futuro
$x2=0;
$y=0;
$x=0;
$xy=0;
$cantidad=count($xarray);
for($i=0;$i<$cantidad;$i++){
//Tabla de datos
print ($xarray[$i]." ---- ".$yarray[$i]."<br>");
//Calculo de terminos
$x2 += $xarray[$i]*$xarray[$i];
$y += $yarray[$i];
$x += $xarray[$i];
$xy += $xarray[$i]*$yarray[$i];
}
//Coeficiente parcial de regresion
$b=($cantidad*$xy-$x*$y)/($cantidad*$x2-$x*$x);
//Calculo del intercepto
$a=($y-$b*$x)/$cantidad;
//Recta tendencial
//y=a+bx
//Proyeccion en dias para un 100% de la ejecucion:
if ($b!=0) $dias_proyectados=($pm-$a)/$b;
else $dias_proyectados=999999; //Infinitos
$dp=round($dias_proyectados,0);
if($dp<=$pm) print $dp."---> Culmina antes de los $pm dias <br>";
if($dp >$pm) print $dp ."---> ALARMA: No culmina antes de los $pm dias <br>";
?>
</source>
== Véase también ==
* [[
* [[
* [[Modelos de regresión múltiple postulados y no postulados]]
* [[Regresión segmentada]]
* [[Econometría]]
* [[Mínimos cuadrados]]
* [[Regularización de Tikhonov]]
* [[Cuarteto de Anscombe]]
* [[Capital Asset Pricing Model]]
== Referencias ==
{{
== Bibliografía ==
* Devore, Jay L.; ''Probabilidad y Estadística para Ingeniería y Ciencias''. International Thomson Editores. México. ISBN-10: 9706864571.
* Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; ''Probabilidad y Estadística para Ingenieros''. Pretice-Hall Hispanoamericana, S.A. México. ISBN-10: 9701702646.
* Canavos, George C.; ''Probabilidad y Estadística. Aplicaciones y Métodos.'' McGraw-Hill. México. ISBN-10: 9684518560.
== Enlaces externos ==
* [http://www.wessa.net/esteq.wasp Cálculo de regresiones lineales en línea.] (en inglés)
* [http://zunzun.com/ ZunZun.com] Ajuste de curvas y superficies en línea. (en inglés)
* [http://www.xuru.org/rt/LR.asp xuru.org] Herramientas de regresión lineal en línea. (en inglés)
* [http://cajael.com/mestadisticos/T4DProbabilidad/node8.php] Simulación de la recta de regresion de una variable bidimensional continua con [[R (lenguaje de programación)]]
[[Categoría:
[[Categoría:Análisis de la regresión]]
|