REGRESION LINEAL MULTIPLE
La regresión lineal es una técnica estadística destinada a analizar las causas de por qué pasan las cosas. A partir de los análisis de regresión lineal múltiple podemos:
​​
-
identificar que variables independientes (causas) explican una variable dependiente (resultado)
-
comparar y comprobar modelos causales
-
predecir valores de una variable, es decir, a partir de unas características predecir de forma aproximada un comportamiento o estado
La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis y relaciones causales. Ante de empezar, una serie de condiciones que se deben cumplir para poder aplicar la regresión lineal múltiple:
-
La variable dependiente (resultado) debe ser ordinal o escalar, es decir, que las categorías de la variable tengan orden interno o jerarquía, p.ej. nivel de ingresos, peso, número de hijos, justificación del aborto en una escala de 1-nunca a 10-siempre.
-
Las variables independientes (causas) deben ser ordinales o escalares o dummy
-
Hay otras condiciones como: las variables independientes no puede estar altamente correlacionadas entre sí, las relaciones entre las causas y el resultado deben ser lineales, todas variables deben seguir la distribución normal y deben tener varianzas iguales. Estas condiciones no son tan estrictas y hay maneras de tratar los datos si se incumple. Sobre ello volveremos en futuras entradas
Realicemos un ejemplo de regresión lineal múltiple:
Quiero saber cuáles son las causas que explican la justificación del aborto en España usando los datos de la Encuesta Mundial de Valores de 2005. A partir de mi observación de la realidad y la lectura de investigaciones sobre el tema propongo un modelo causal que incluye las siguientes variables:
Variable dependiente:
-
justificación del aborto: Se preguntó a los encuestados en qué grado en una escala de 1 a 10 justificarían el aborto, donde 1 es nunca lo justificaría y 10 siempre lo justificarían.
Variables independientes:
-
Importancia de Dios en la vida: se preguntó en una escala de 1 a 10, donde 1 es nada importante y 10 es muy importante
-
Nivel educativo: se preguntó cuál es el último nivel educativo alcanzado donde 1 es sin estudios primarios completos, 2 es primarios completos, 3 es secundarios completos y 4 es universitarios completos.
-
Nivel de ingresos: se preguntó sobre cuánto gana al mes en una escala del 1 al 10 con diversos rangos salariales
-
Edad
-
Número de hijos
-
Confianza en el gobierno: se preguntó sobre el
nivel de confianza en el gobierno en una escala de 1 a 4 donde: 1 es confío
mucho, 2 es confío bastante, 3 es confío poco y 4 es que no confío nada
​
Sobre la bondad del modelo
-
La significación de F es menor de 0,05 por tanto el modelo es un bueno para explicar la variable dependiente, es estadísticamente significativo
-
La R-cuadrado es 0,301 lo cual indica que el modelo explica el 30,1% de la varianza de la variable dependiente. Casi un tercio de la justificación del aborto es explicado por este conjunto de variables independientes (causas) seleccionadas.
EJERCICIO DE REGRESIÓN LINEAL MÚLTIPLE
ANALISIS DE VARIANZA O ANOVA
En estadística, el análisis de la varianza (ANOVA por sus sigloides en inglés, ANalysis Of VAriance) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.
Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.