Diferencia entre revisiones de «Regresión lineal»

Contenido eliminado Contenido añadido
Sin resumen de edición
Línea 1:
{{Artículo bueno}}
{{fusionar hacia|regresión lineal}}
{{otros usos|Función lineal (desambiguación)}}
[[Archivo:Linear regression.svg|350px|thumb|Ejemplo de una regresión lineal con una [[variable dependiente]] y una [[variable independiente]].]]
En [[estadística]] la '''regresión lineal''' o '''ajuste lineal''' es un [[método]] [[Matemáticas|matemático]] que [[Modelo matemático|modela]] la relación entre una [[variable dependiente]] ''Y'', las [[Variable independiente|variables independientes]] ''X<sub>i</sub>'' y un término [[Aleatoriedad|aleatorio]] ε. Este modelo puede ser expresado como:
 
{{ecuación|<math>Y_t = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots +\beta_p X_p + \varepsilon</math>||left}}
La '''regresión lineal aplicada en fabricación''' es una técnica estadística para modelar e investigar la relación entre dos o más variables. Este método es aplicable en muchas situaciones en las que se estudia la relación entre dos o más variables o predecir un comportamiento, algunas incluso sin relación con la tecnología. En caso de que no se pueda aplicar un modelo de regresión a un estudio, se dice que no hay correlación entre las variables estudiadas.
 
<math>Y_t</math>: variable dependiente, explicada o regresando.
==Marco teórico ==
 
<math>X_1, X_2, \cdots, X_p </math>: variables explicativas, independientes o regresores.
El modelo de regresión lineal será aplicado en aquellos casos en los que la variable independiente Y sea continua. Existen varios tipos de regresión, por ejemplo:
 
<math>\beta_0,\beta_1,\beta_2,\cdots ,\beta_p </math>: parámetros, miden la influencia que las variables explicativas tienen sobre el
=== Regresión lineal simple ===
regresando.
El modelo de regresión lineal simple considera una única variable independiente o explicativa, x, y una variable dependiente o respuesta, Y, asumiendo que la relación entre ambas es lineal.
 
donde <math>\beta_0</math> es la intersección o término "constante", las <math>\beta_i \ (i > 0)</math> son los parámetros respectivos a cada variable independiente, y <math>p</math> es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la [[regresión no lineal]].
La ecuación que modelizará el comportamiento existente entre ambas variables es la siguiente, siendo β1 y β0 estimadores:
<math>y_i=\hat\beta_0+\hat\beta_1x_i+e_i\,,\qquad i=1\ldots n</math>
 
== Historia ==
β<sub>1</sub>: Se trata del cociente entre la interacción obtenida entre ambas variables y la suma de cuadrados de los valores de la variable dependiente. Este valor corresponde a la pendiente de la recta.
La primera forma de regresión lineal documentada fue el [[Mínimos cuadrados|método de los mínimos cuadrados]] que fue publicada por [[Adrien Marie Legendre|Legendre]] en [[1805]],<ref ]], Gauss publicó un trabajo en donde desarrollaba de manera más profunda el método de los mínimos cuadrados,<ref name="Gauss2">C.F. Gauss. ''Theoria combinationis observationum erroribus minimis obnoxiae''. (1821/1823)</ref> y en dónde se incluía una versión del [[teorema de minino]].
 
=== Etimología ===
<math>\hat\beta_1=\frac{\displaystyle\sum_{i=1}^ny_ix_i-\frac{\left(\displaystyle\sum_{i=1}^ny_i\right)\left(\displaystyle\sum_{i=1}^nx_i\right)}{n} }{\displaystyle\sum_{i=1}^nx^2_i-\frac{\left(\displaystyle\sum_{i=1}^nx_i\right)^2}{n} }</math>
El término ''regresión'' se utilizó por primera vez en el estudio de [[variables]] [[Antropometría|antropométricas]]: al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían una estatura muy superior al [[valor medio]], tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al [[promedio]].<ref name=etim>[http://www.curvefit.com/linear_regression.htm Introduction to linear regression] Curvefit.com (en inglés)</ref> La constatación [[método empírico|empírica]] de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.
 
El término ''lineal'' se emplea para distinguirlo del resto de técnicas de [[Análisis de la regresión|regresión]], que emplean modelos basados en cualquier clase de [[función matemática]]. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico mucho más extenso por parte de la [[matemática]] y la [[estadística]].
β0: Es el resultado de la siguiente ecuación en la que aparecen los valores medios correspondientes a ambas variables y el estimador β1 obtenido anteriormente. Este valor es la ordenada en el origen.
 
Pero bien, como se ha dicho, podemos usar el término lineal para distinguir modelos basados en cualquier clase de aplicación.
<math>\hat\beta_0=\overline y-\hat\beta_1\overline x</math>
 
== El modelo de regresión lineal ==
Ei es el residuo e indica la bondad del ajuste realizado para cada punto. Se calcula de la siguiente forma:
El modelo lineal relaciona la [[variable dependiente]] ''Y'' con ''K'' variables explícitas <math> X_k </math> ''(k = 1,...K)'', o cualquier [[transformación]] de éstas que generen un [[hiperplano]] de [[Variable (matemáticas)|parámetros]] <math> \beta_k </math> desconocidos:
 
{{ecuación|<math>e_i Y =y_i- \hatsum y_i\beta_k X_k + \varepsilon</math>|2|left}}
 
donde <math> \varepsilon </math> es la [[perturbación]] [[Aleatoriedad|aleatoria]] que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el [[azar]], y es la que confiere al modelo su carácter [[estocástico]].
Una vez se ha obtenido la recta de regresión, es necesario comprobar la bondad del ajuste realizado mediante el siguiente análisis ANOVA:
En el caso más sencillo, con una sola variable explícita, el [[hiperplano]] es una [[recta]]:
[[Archivo:FOTO5.png]]
 
{{ecuación|<math> Y = \beta_1 + \beta_2 X_2 + \varepsilon</math>|3|left}}
n= número de datos.
Se compara F0 con valor F crítico (tabla F de Scnedecor) con valor de significación α, 1, y n-2 grados de libertad concluyendo:
Si F0< Ft, el modelo es apropiado,
Si F0> Ft, el modelo utilizado no es apropiado.
 
El problema de la regresión consiste en elegir unos [[valor numérico|valores]] determinados para los parámetros desconocidos <math>\beta_k</math>, de modo que la [[ecuación]] quede completamente especificada.
Para los casos en los que un modelo lineal no sea el más adecuado, se pueden aplicar los llamados modelos intrínsecamente lineales que transforman la recta en otro tipo de función. Un ejemplo sería la función exponencial:
Para ello se necesita un conjunto de observaciones. En una observación i-ésima ''(i= 1,... I)'' cualquiera, se registra el comportamiento simultáneo de la [[variable dependiente]] y las variables explícitas (las perturbaciones [[Aleatoriedad|aleatorias]] se suponen no observables).
 
{{ecuación|<math>Y Y_i = \beta_0sum e^{\beta_1xbeta_k X_{ki} + \varepsilonvarepsilon_i</math>|4|left}}
 
Los valores escogidos como [[estimador]]es de los parámetros <math>\hat{\beta_k}</math>, son los [[Coeficiente (matemáticas)|coeficientes]] de regresión sin que se pueda garantizar que coincida
=== Regresión múltiple (varias variables) ===
n con parámetros reales del proceso generador. Por tanto, en
Un modelo de regresión que contiene más de una variable se denomina Modelo de Regresión Múltiple. La variable dependiente o respuesta Y puede ser relacionada con k variables independientes. La ecuación que modeliza el comportamiento es la siguiente:
 
{{ecuación|<math> Y_i = \sum \hat{\beta_k} X_{ki} + \hat{\varepsilon_i}</math>|5|left}}
<math>Y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2+\ldots+\hat\beta_\kappa x_\kappa+\varepsilon</math>
 
Los valores <math> \hat{\varepsilon_i} </math> son por su parte [[Estimación|estimaciones]] o errores de la perturbación aleatoria.
Este modelo se podrá representar de forma matricial de la siguiente manera:
 
== Hipótesis del modelo de regresión lineal clásico ==
<math>y=X\beta+\varepsilon</math>
 
1. Esperanza matemática nula.
<math>\mathbf{y}=\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}
\qquad
\mathbf{X}=\begin{bmatrix}1 & \cdots & x_{11} & \cdots & x_{12} & \cdots & x_{1k} \\1 & \cdots & x_{21} & \cdots & x_{22} & \cdots & x_{2k} \\\vdots \\1 & \cdots & x_{n1} & \cdots & x_{n2} & \cdots & x_{nk}\end{bmatrix}
</math>
 
<math>\beta=\begin{bmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_n\end{bmatrix}
\qquad
\varepsilon=\begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n\end{bmatrix}
</math>
La obtención de los estimadores se realizará resolviendo el sistema lineal de ecuaciones.
 
<math>E(\varepsilon_i) = 0</math>
Al igual que en el caso anterior será necesario efectuar una comprobación de la bondad de ajuste mediante un test ANOVA.
 
[[Archivo:FOTO10.png]]
 
Para cada valor de X la perturbación tomará distintos valores de forma aleatoria, pero no tomará
k= número de variables.
sistemáticamente valores positivos o negativos, sino que se supone tomará algunos valores
n= número de datos.
mayores que cero y otros menores que cero, de tal forma que su valor esperado sea cero.
p= número de grupos.
Siendo estas las expresiones para el cálculo de las sumas de cuadrados:
 
<math>\begin{array}{lcl} Syy&=&\displaystyle\sum_{i=1}^n y_i^2-\frac{\left(\displaystyle\sum_{i=1}^n y_i\right)^2}{n}=y'y-\frac{\left(\displaystyle\sum_{i=1}^n y_i\right)^2}{n}=Var(y)*(n-1)\\ SS_E&=&y'y-\hat\beta'X'y=\displaystyle\sum_{i}e_i^2\,,\\ SS_R&=&\hat\beta'X'y-\frac{\left(\displaystyle\sum_{i=1}^n y_i\right)^2}{n}=Syy-SS_E \end{array}</math>
 
2. Homocedasticidad
Con el valor F crítico (valor de significación α, k, y n-p grados de libertad) correspondiente y se compara con F0 determinando la bondad del ajuste de la misma forma que en el caso de una variable.
 
== Aplicaciones ==
El modelo de regresión lineal es aplicado en un gran número de campos, desde el ámbito científico hasta el ámbito social, pasando por aplicaciones industriales ya que en multitud de situaciones se encuentran comportamientos lineales. Estos son algunos ejemplos aplicados a diversos campos:
 
<math>Var(\varepsilon_t) = E(\varepsilon_t - E \varepsilon_t)^2 = E \varepsilon_t^2 = \sigma^2 </math> para todo t
===== Química =====
La concentración de un elemento es uno de los parámetros de mayor importancia en los procesos químicos aplicados en la industria. Esta cuantificación se puede obtener mediante un espectrofotómetro, dispositivo que requiere se calibrado. Para ello se elabora una recta de calibración que se obtiene a partir de la correlación entre la absorbancia de un patrón y la concentración de la sustancia a controlar.<ref>Química: http://www.cpts.org/proyinvesti/PROYECTO02.pdf</ref>
 
Todos los términos de la perturbación tienen la misma varianza que es desconocida.
===== Mecánica =====
La dispersión de cada <math>\varepsilon_t</math> en torno a su valor esperado es siempre la misma.
En esta rama se utiliza la Regresión Lineal entre otros para ajustar la recta de Paris , una ecuación que sirve para estudiar elementos sometidos a fatiga en función del número de ciclos a los que se somete un material. La bondad del ajuste se comprueba representando el conjunto de valores discretos a-Nm obtenidos experimentalmente, frente a la curva correspondiente a la recta de Paris definida por los valores “C” y “m”.<ref>Mecanica: http://www.gef.es/Congresos/25/PDF/6-12.pdf</ref>
 
===== Electricidad =====
En electricidad se puede obtener el valor de una resistencia en un circuito y su error mediante un ajuste de regresión lineal de pares de datos experimentales de voltaje e intensidad obtenidos mediante un voltímetro y un amperímetro.<ref>Electricidad: http://colos.inf.um.es/fisicabiologia/practicas/ohm.pdf</ref>
 
3. Incorrelación.
===== Sensores =====
Calibración de un sensor de temperatura (termopar) en función de la caída de tensión y la temperatura. Se estudia la forma en que varía la temperatura de un líquido al calentarlo. Se calibra el sensor y simultáneamente se mide la variación de temperaturas en un líquido para representar los datos obtenidos posteriormente mediante Regresión Lineal.<ref>Sensores: http://www.dfi.uchile.cl/labfi25a/exp-separ/Sensor-Temperat.pdf</ref>
 
<math>Cov(\varepsilon_t,\varepsilon_s ) = (\varepsilon_t - E \varepsilon_t) (\varepsilon_s - E \varepsilon_s) = E \varepsilon_t \varepsilon_s = 0 </math> para todo t,s con t distinto de s
===== Física =====
Determinación del coeficiente de rozamiento estático de forma experimental a partir de la medición del ángulo de inclinación de una rampa. Se realiza un montaje ajustando un circuito para medir el ángulo de inclinación, y se realizan mediciones variando dicho. Mediante la regresión lineal de los datos obtenidos, se obtiene la ecuación y el índice de correlación a fin de saber el error.<ref>Física: http://www.utp.edu.co/php/revistas/ScientiaEtTechnica/docsFTP/172417357-362.pdf</ref>
 
Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no están correlacionadas. Esto implica que el valor de la perturbación para cualquier observación muestral no viene influenciado por los valores de las perturbaciones correspondientes a otras observaciones muestrales.
===== Fabricación =====
Dos de los parámetros más importantes de una soldadura es la intensidad aplicada al hilo y la velocidad de alimentación del mismo. Mediante técnicas de regresión lineal se elaboran las rectas que relacionan estos parámetros con la separación entre el hilo y la zona a soldar.<ref>Fabricación: http://www.redalyc.org/articulo.oa?id=49611942020</ref>
 
4. Regresores no estocásticos.
===== Diseño de experimentos =====
Con la metodología 2k es posible mejorar un proceso mediante la realización de experimentos, determinando qué variables tienen un efecto significativo. A partir de esas variables se obtiene una recta de regresión que modeliza el efecto. Por ejemplo se podría obtener la relación entre la temperatura y la presión en un proceso industrial.<ref>Diseño de experimentos: http://academic.uprm.edu/dgonzalez/6005/factoriales%202%20a%20la%20k</ref>
 
5. No existen relaciones lineales exactas entre los regresores.
===== Construcción =====
Mediante técnicas de regresión lineal se caracterizarán diversas cualidades del hormigón. A partir del módulo de elasticidad es posible predecir la resistencia a la compresión de una determinada composición de un hormigón. También se puede determinar la succión capilar a partir del volumen absorbido por una muestra y el tiempo que ha durado la succión.<ref>Construcción: http://upcommons.upc.edu/pfc/bitstream/2099.1/3325/8/55874-8.pdf</ref>
 
6. <math>T > k + 1 </math>
== Desarrollo de algunos ejemplos de aplicación de la regresión lineal ==
Suponemos que no existen errores de [[Especificación (Análisis de la regresión)|especificación]] en el modelo, ni errores de medida en las variables explicativas
 
7. Normalidad de las perturbaciones
==== Aplicación de regresión lineal simple en el proceso de pigmentación de una empresa del sector de la automoción. ====
<math> \varepsilon \sim N(0, \sigma^2 )</math>
 
== Supuestos del modelo de regresión lineal ==
En la práctica, con mucha frecuencia es necesario resolver problemas que implican conjuntos de variables, cuando se sabe que existe alguna relación inherente entre ellas. Por ejemplo, en un caso industrial se puede saber que la pintura, para partes automotrices, está relacionada con la cantidad de pigmentación con la que se lleva a cabo. Puede ser interesante desarrollar un método de predicción, esto, un procedimiento para estimar el contenido de pigmentación que deben de tener las pinturas para cumplir con las especificaciones de las armadoras como se muestra en la siguiente imagen de tal manera que el problema consiste en lograr la mejor estimación de la relación entre las variables.
 
Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes supuestos:<ref name=supuestos>[http://www.ucm.es/info/socivmyt/paginas/profesorado/benitacompostela/tema2.doc "Análisis de regresión lineal"], [[Universidad Complutense de Madrid]]</ref>
[[Archivo:Pintura carrocería.jpg]]
# Que la relación entre las variables sea lineal.
# Que los errores en la medición de las variables explicativas sean independientes entre sí.
# Que los errores tengan varianza constante. ([[Homocedasticidad]])
# Que los errores tengan una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).
# Que el error total sea la suma de todos los errores.
 
== Tipos de modelos de regresión lineal ==
Del ejemplo citado anteriormente, los gramos de pigmentación son la variable independiente y la resolución de pintura es la respuesta “Y”
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
 
=== Regresión lineal simple ===
El término regresión lineal implica “Y” esta linealmente relacionado con “X” por la ecuación de la recta:
Sólo se maneja una [[variable independiente]], por lo que sólo cuenta con dos [[Variable (matemáticas)|parámetros]]. Son de la forma:<ref name=utn>''"Fórmulas", Probabilidad y Estadística.'' Cs. Básicas. U.D.B. Matemática. [[Universidad Tecnológica Nacional]], [[Facultad Regional Buenos Aires]]. Editorial CEIT-FRBA. (Código BM2BT2)</ref>
 
{{ecuación|<math> Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i</math>|6|left}}
Y=b+mX ó Y=bx+c
La manera en que se representa el color en las armadoras y ensambladoras, es a través de la Figura 1, la cual muestra la combinación de todos los colores posibles.
 
donde <math>\varepsilon_i</math> es el error asociado a la medición del valor <math>X_i</math> y siguen los supuestos de modo que <math>\varepsilon_i \sim N(0,\sigma^2)</math> (media cero, [[varianza]] constante e igual a un <math>\sigma</math> y <math>\varepsilon_i \perp \varepsilon_j</math> con <math>i\neq j</math>).
[[Archivo:Colorimetría.JPG]]
 
==== Análisis ====
Figura 1. Diagrama general del color.
Dado el modelo de regresión simple, si se calcula la [[esperanza]] (valor esperado) del valor ''Y'', se obtiene:<ref name=modreg>[http://www.einsteinnet.com/econometria/Introeconometria/regsimple.htm Modelo de regresión lineal simple.] EinsteinNet.</ref>
 
{{ecuación|<math>E(y_i) = \hat{y_i}=E(\beta_0) + E(\beta_1 x_i) + E(\varepsilon_i)</math>|7|left}}
Para nuestro análisis en cuestión el color se especifica cómo se muestra en la Tabla 1.
Las especificaciones de color para los volantes de un modelo de automóvil, son las siguientes:
{| class="wikitable" style="text-align:center"
|+ Tabla 1
|-
| L || -27.59 || '+/-0.6
|-
| A || -0.05 || '+/-0.2
|-
| B || 1.29 || '+/-0.2
|}
 
De esta manera se observa que las especificaciones son muy justas y cualquier ajuste equivoco de pigmentación en la pintura ocasionará, material en condiciones NG, proporcionando indicadores negativos a la empresa como pérdida de tiempo, dinero, aumento de scrap así como sus indicadores de PPMS internos y con su cliente. Haciendo una corrida amplia y manipulando el pigmento blanco se toma de lecturas de las condiciones de la pintura. Son conforme a la Tabla 2.
 
[[Derivada|Derivando]] respecto a <math>\hat{\beta}_0</math> y <math>\hat{\beta}_1</math> e igualando a cero, se obtiene:<ref name=modreg />
[[Archivo:FOTO16.png]]
 
{{ecuación|<math>\frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_0} = 0 </math>|9|left}}
Tabla 2. Datos obtenidos de la pintura ajustada con pigmento blanco.
{{ecuación|<math>\frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_1} = 0 </math>|10|left}}
Estimando el valor de la pendiente “β1” (que llamaremos b) y el valor “β0” (que llamaremos a), se tiene que:
La pendiente de la recta estimada es:
b = -0,468
El valor de “β0” estimados es:
a = -25,44567
 
Obteniendo dos ecuaciones denominadas [[Ecuación normal|ecuaciones normales]] que generan la siguiente [[raíz de una función|solución]] para ambos parámetros:<ref name=utn />
De tal manera que la formula de la recta estimada para el ejemplo de la pintura es:
<math>\hat Y</math> = -25,445-0,468. X
 
{{ecuación|<math> \hat{\beta_1} = \frac { \sum x \sum y - n \sum xy } { \left ( \sum x \right ) ^ 2 - n \sum x^2 } = \frac{ \sum (x-\bar{x})(y-\bar{y} ) }{\sum ( x - \bar{x})^2 }</math>|11|left}}
Y la gráfica para validar la normalidad de los errores (uno de los supuestos en los que se basa este análisis) es:
{{ecuación|<math> \hat{\beta_0} = \frac { \sum y - \hat{\beta}_1 \sum x } { n } = \bar{y} - \hat{\beta_1} \bar{x}</math>|12|left}}
 
La interpretación del parámetro medio <math>{\beta_1}</math> es que un incremento en Xi de una unidad, Yi incrementará en <math>{\beta_1}</math>'''
[[Archivo:Normal probability plot 0001 residuals.png]]
 
=== Regresión lineal múltiple ===
Figura 2. Gráfica de probabilidad.
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma manera, es posible analizar la relación entre dos o más variables a través de ecuaciones, lo que se denomina '''regresión múltiple''' o '''regresión lineal múltiple'''.
 
Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionadas entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.
De esta manera, la función de la recta a través de los mínimos cuadrados funciona e interactúa para generar una ayuda en el ámbito industrial y generar un valor probabilístico en beneficio de obtención de una similitud de operaciones.
 
Maneja varias [[Variable independiente|variables independientes]]. Cuenta con varios parámetros. Se expresan de la forma:<ref name=regmul>[http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.asp Técnicas de regresión: Regresión Lineal Múltiple.] ''Pértega Díaz, S., Pita Fernández, S.'' Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario de [[La Coruña]] ([[España]])</ref>
Este método ayudara a las empresas a:
• Reducción de tiempos en decisiones de procesos
• Reducción de inversión de materiales en los procesos.
• Generar un valor mínimo de incertidumbre en los procesos
• Estandariza procesos.
 
{{ecuación|<math> Y_i = \beta_0 + \sum \beta_i X_{ip} + \varepsilon_i</math>|13|left}}
La función de la recta es aplicable en el ámbito industrial al generar una regresión lineal para la obtención de un valor esperado que ayude a las compañías a tener una idea de un valor de una variable que pueden controlar en beneficio de sus procesos.
 
donde <math>\varepsilon_i</math> es el error asociado a la medición <math>i</math> del valor <math>X_{ip}</math> y siguen los supuestos de modo que <math>\varepsilon_i \sim N(0,\sigma^2)</math> (media cero, [[varianza]] constante e igual a un <math>\sigma</math> y <math>\varepsilon_i \perp \varepsilon_j</math> con <math>i\neq j</math>).
==== Aplicación de regresión lineal múltiple en el análisis químico ====
 
== Rectas de regresión ==
El rendimiento de una reacción química depende de la temperatura de operación y de la concentración inicial del reactivo. Efectué un análisis de regresión a los siguientes datos:
Las rectas de regresión son las [[recta]]s que mejor se ajustan a la nube de puntos (o también llamado [[diagrama de dispersión]]) generada por una [[distribución binomial]].
Matemáticamente, son posibles dos rectas de máximo ajuste:<ref>[http://descartes.cnice.mec.es/materiales_didacticos/bidimensional_lbarrios/regresion_est.htm Apunte sobre Rectas de regresión.] Ministerio de Educación y Ciencia. Gobierno de [[España]].</ref>
 
* La recta de regresión de ''Y'' sobre ''X'':
{| class="wikitable" style="text-align:center"
{{ecuación|<math>y = \bar{y} + \frac{\sigma_{xy}}{\sigma_{x}^2}(x - \bar{x})</math>|14|left}}
|-
* La recta de regresión de ''X'' sobre ''Y'':
! Rendimiento !! concentración !! temperatura
{{ecuación|<math>x = \bar{x} + \frac{\sigma_{xy}}{\sigma_{y}^2}(y - \bar{y})</math>|15|left}}
|-
| 81 || 1 || 150
|-
| 89 || 1 || 180
|-
| 83 || 2 || 150
|-
| 91 || 2 || 180
|-
| 79 || 1 || 150
|-
| 87 || 1 || 180
|-
| 84 || 2 || 150
|-
| 90 || 2 || 180
|}
 
La [[correlación]] (''"r"'') de las rectas determinará la calidad del ajuste. Si ''r'' es cercano o igual a 1, el ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el modelo obtenido resulta verdaderamente representativo); si ''r'' es cercano o igual a 0, se tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad).
'''SOLUCIÓN'''
Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de la [[distribución]].
 
== Aplicaciones de la regresión lineal ==
Aplicando las fórmulas citadas anteriormente obtendremos los resultados de todos los datos que serán necesarios para el cálculo de la Tabla ANOVA.
=== Líneas de tendencia ===
{{VT|Tendencia}}
Una ''línea de tendencia'' representa una [[tendencia]] en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el [[PBI]], el [[precio del petróleo]] o el valor de las [[acciones]]) han aumentado o decrementado en un determinado período.<ref name=tendencia>[http://www.paritech.com/paritech-site/education/technical/indicators/trend/linear3.asp Utilización de las líneas de tendencia], Paritech (en inglés)</ref> Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas [[estadística]]s como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.
 
=== Medicina ===
En primer lugar se ajustara el modelo lineal y= β0 + β 1x1+ β 2x2+ε a los datos, se realizará la estimación de los coeficientes, y obtendremos la varianza residual:
En [[medicina]], las primeras evidencias relacionando la [[mortalidad]] con el [[fumar]] [[tabaco]]<ref>Doll R, Peto r, Wheatley K, Gray R et al. ''Mortality in relation to smoking: 40 years' observations on male British doctors ''.[[BMJ]] 1994;309:901-911 (8 de octubre]</ref> vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir [[Relación espuria|correlaciones espurias]].
En el caso del [[tabaquismo]], los investigadores incluyeron el estado socio-económico para asegurarse que los efectos de [[mortalidad]] por [[tabaquismo]] no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.<ref name=tabaco>[http://ajrccm.atsjournals.org/cgi/content/full/158/1/170 "Environmental Tobacco Smoke and Adult Asthma"] Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, [[Universidad de California]], [[San Francisco (California)|San Francisco]], [[California]]. (en inglés)</ref><ref name=tabaco1>[http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S0036-36342005000500002&lng=pt Efecto del tabaquismo, los síntomas respiratorios y el asma sobre la espirometría de adultos de la Ciudad de México], Justino Regalado-Pineda; Alejandro Gómez-Gómez; Javier Ramírez-Acosta; Juan Carlos Vázquez-García</ref> En el ejemplo del [[tabaquismo]], un [[hipótesis (método científico)|hipotético]] [[gen]] podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de [[tabaco]]. Por esta razón, en la actualidad las [[Prueba controlada aleatoria|pruebas controladas aleatorias]] son consideradas mucho más confiables que los análisis de regresión.
 
=== Informática ===
S<sup>2</sup> =1,04881
 
Ejemplo de una rutina que utiliza una recta de regresión lineal para proyectar un valor futuro:
Tras esto a partir de los residuos calculados y representados en una tabla se calcula el coeficiente de determinación:
Código escrito en [[PHP]]
 
<source lang="php">
R<sup>2</sup> =0,959559
<?php
 
//Licencia: GNU/GPL
Por último se calculan las varianzas asociadas a cada uno de los estimadores de los parámetros:
$xarray=array(1, 2, 3, 4, 5 ); //Dias
 
$yarray=array(5, 5, 5, 6.8, 9); //Porcentaje de ejecucion
{| class="wikitable"
$pm=100; //Valor futuro
|-
$x2=0;
| '''Parámetro''' || '''Sbi'''
$y=0;
|-
$x=0;
| β0 || 4,24411
$xy=0;
|-
$cantidad=count($xarray);
| β1 || 0,74162
for($i=0;$i<$cantidad;$i++){
|-
//Tabla de datos
| β2 || 0,02472
print ($xarray[$i]." ---- ".$yarray[$i]."<br>");
|}
//Calculo de terminos
 
$x2 += $xarray[$i]*$xarray[$i];
Tras esto ya podemos calcular y representar los resultados en la Tabla ANOVA. La significación global del ajuste se presenta en la Tabla E52.3:
$y += $yarray[$i];
 
$x += $xarray[$i];
[[Archivo:FOTO19.png]]
$xy += $xarray[$i]*$yarray[$i];
 
}
Al comparar Fo con el F0.05, 2, 5 puede concluirse que el modelo es significativo y que al menos un bi es distinto de cero. La significancia del efecto de cada Xi se probara a partir de la prueba 1, basada en una prueba “t”, dicho análisis se presenta a continuación:
//Coeficiente parcial de regresion
 
$b=($cantidad*$xy-$x*$y)/($cantidad*$x2-$x*$x);
[[Archivo:FOTO20.png]]
//Calculo del intercepto
 
$a=($y-$b*$x)/$cantidad;
Al comparar el to asociado a cada bi con la t0.025,5 puede observarse que los efectos tanto de la temperatura como de la concentración son significativos a un nivel de confianza del 95%. El modelo ajustado es por tanto:
//Recta tendencial
 
//y=a+bx
Y = 39.75 + 3.0 . X concentración + 0.25 . X temperatura
//Proyeccion en dias para un 100% de la ejecucion:
 
if ($b!=0) $dias_proyectados=($pm-$a)/$b;
La validación del modelo se haría en base al análisis de los residuos, a través de los siguientes gráficos:
else $dias_proyectados=999999; //Infinitos
* gráfico de probabilidad normal de los residuos
$dp=round($dias_proyectados,0);
* gráfico de los residuos frente a los valores predichos
if($dp<=$pm) print $dp."---> Culmina antes de los $pm dias <br>";
* gráficos de los residuos frente a cada variable
if($dp >$pm) print $dp ."---> ALARMA: No culmina antes de los $pm dias <br>";
 
?>
Un análisis de los gráficos de los residuos contra las variables concentración y temperatura permitirá concluir si el factor concentración presenta un efecto muy importante sobre la variabilidad del rendimiento, en función de si una mayor concentración reduce la variabilidad en cuanto al rendimiento de la reacción química.
</source>
 
== Véase también ==
 
* [[Regresión linealHomoscedasticidad]]
* [[AnálisisRegresión de la varianzalogística]]
* [[Modelos de regresión múltiple postulados y no postulados]]
* [[Diseño robusto]]
* [[Regresión segmentada]]
* [[Econometría]]
* [[Mínimos cuadrados]]
* [[Regularización de Tikhonov]]
* [[Cuarteto de Anscombe]]
* [[Capital Asset Pricing Model]]
 
== Referencias ==
{{listarefListaref|2}}
 
== Bibliografía ==
* Devore, Jay L.; ''Probabilidad y Estadística para Ingeniería y Ciencias''. International Thomson Editores. México. ISBN-10: 9706864571.
* Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; ''Probabilidad y Estadística para Ingenieros''. Pretice-Hall Hispanoamericana, S.A. México. ISBN-10: 9701702646.
* Canavos, George C.; ''Probabilidad y Estadística. Aplicaciones y Métodos.'' McGraw-Hill. México. ISBN-10: 9684518560.
 
== Enlaces externos ==
* Marco teórico
* [http://www.wessa.net/esteq.wasp Cálculo de regresiones lineales en línea.] (en inglés)
José Antonio Heredia Álvaro, apuntes de clase tema 3: Regresión Lineal de la asignatura Ingeniería de Calidad de Ingniería Industrial de la Universitat Jaume I
* [http://zunzun.com/ ZunZun.com] Ajuste de curvas y superficies en línea. (en inglés)
 
* [http://www.xuru.org/rt/LR.asp xuru.org] Herramientas de regresión lineal en línea. (en inglés)
 
* [http://cajael.com/mestadisticos/T4DProbabilidad/node8.php] Simulación de la recta de regresion de una variable bidimensional continua con [[R (lenguaje de programación)]]
* Primer ejemplo
 
- Antoniadis, A.; Berruyer, J.; Carmona, R. (1992) Regression Non Lin´eaire et Applications.
 
- Ronald E. Walpole (1992). Probabilidad y Estadística.
 
- Juan Manuel Silvia, Adriana Lazo, (2008) Fundamentos de matemáticas.
web: http://www.cicataqro.ipn.mx/es/tecnologa/V1N2A2.pdf
 
 
* Segundo ejemplo
MONTGOMERY, 1991, cap. 15.
web: http://www.matematica.ues.edu.sv/trabajosdegraduacion/analisis/capitulo%205.PDF
(Archivo PDF Página 38/56, Resuelto con todos los pasos)
 
[[Categoría:EstadísticaÁlgebra lineal]]
[[Categoría:Análisis de la regresión]]