|

Regresión simple

¿Qué es en primer lugar?. Es un tipo de análisis estadístico para establecer la posible relación entre una o más variables de un conjunto de datos observados. Se intenta determinar la relación entre una variable de interés (dependiente) respecto del valor de una o más variables predictoras. Todas las variables involucradas (dependiente y las predictoras utilizadas) deben ser numéricas para este tipo de análisis.

Este análisis también permite establecer el grado de relación entre una o más variables indicando cuál de las variables predictoras tiene mayor o menor incidencia en el valor de la variable dependiente. Esto se logra mediante el coeficiente de correlación, donde 1.0 indica correlación completa y 0 nula correlación.

NOTA: la correlación no indica causalidad.

El modelo de regresión lineal es una manera simple de establecer predicciones entre variables, con una fórmula matemática simple. Se utiliza en todo ámbito, desde las ciencias biológicas a los negocios.

El modelo de regresión se clasifica en los siguientes tipos:

  • Regresión lineal simple: relación entre una variable numérica dependiente y una variable numérica predictora.
  • Regresión lineal múltiple: relación entre una variable dependiente numérica y dos o más variables numéricas predictoras.
  • Regresión logística: relación entre una variable cualitativa dependiente (dicotómica) y un conjunto de variables numéricas.

Regresión lineal simple

La regresión lineal presenta la relación entre variables numéricas, más expresamente entre una variable dependiente (y) y otra variable predictora (x). Intenta por tanto, predecir el valor de una variable cuantitativa en relación a otra.

Cuantificación del error

Cuando se construye un modelo de regresión, es necesario evaluar el rendimiento del modelo predictivo. En otras palabras, hay que evaluar la eficacia del modelo para predecir el resultado de unos nuevos datos de prueba que no se han utilizado para construir el modelo.

Para evaluar el rendimiento del modelo de regresión predictiva se suelen utilizar dos métricas importantes:

Raíz del error cuadrático medio

Esta médida (Root Mean Squared Error RMSE), mide el error de predicción del modelo. Y que corresponde a la diferencia media entre los valores conocidos observados del resultado y el valor predicho por el modelo. El RMSE se calcula como la raíz media((predicho – observado)^2) .

Este valor es una medida de precisión del modelo aplicado al conjunto de datos, y sirve para comparar con otros modelos aplicados a ese mismo conjunto de datos. Al ser al cuadrado, los errores de mayor valor inciden mayormente en el error, por ello es sensible a los valores atípicos (“outliers”).

R-cuadrado

El R-cuadrado (R-square) o coeficiente de determinación, es una medida que indica qué tan cerca se encuentran los datos de la línea de regresión. Se establece entre 0 y 100%.

Nota: Cuanto mayor sea el R2, mejor será el ajuste el modelo a los datos.

R-cuadrado = variación explicada / variación total

100% implica que los valores ajustados son iguales a los valores observados y que por tanto todos los puntos están entonces sobre la recta.

Fuente: https://rpubs.com/paraneda/regresion