--- title: "Ayudantia5" output: pdf_document --- ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) ``` # Regresiones Utilizaremos nuevamente la base de datos Casen 2017 simplificada. ```{r, include=FALSE} #install.packages('haven') library(haven) Casen2017<-read_dta("Casen_2017_simplificada.dta", encoding = "CP1252") ``` ## ¿Hipótesis Nula? ¿La rechazamos? ¿Aceptamos? Seleccionamos una muestra de hombres y mujeres, medimos la presión y calculamos el valor medio. Lo más probable es que las dos medias sean diferentes, incluso en el caso hipotético de que en la población la media de presión fuese igual en los dos sexos. Pues bien, esa será nuestra suposición de partida, la llamada hipótesis nula (H0) que, por convenio, consideramos cierta mientras no se demuestre lo contrario. Frente a esta H0 de no diferencia, definimos una hipótesis alternativa, que dice que el valor es distinto según el sexo. Habitualmente planteamos la H0 como lo contrario de lo que queremos demostrar, de tal manera que, si podemos rechazarla, nos quedemos con la hipótesis alternativa. Una vez que hemos decidido que no hay diferencias en la población, vamos a calcular cuál es la probabilidad de obtener, por azar, un valor tan diferente o más que el que hayamos obtenido. Aquí es donde entran en juego los diferentes test estadísticos. Para ello, a partir de los resultados, calculamos un estadístico que siga una distribución de probabilidad conocida como, por ejemplo, una t de Student. Esto nos permite saber cuál es la probabilidad de obtener un valor como el obtenido o más alejado de la nulidad, simplemente por azar. Si la probabilidad es alta, diremos que la diferencia se debe al azar y que no es probable que se cumpla en la población. Pero si la probabilidad de obtener este valor por azar es muy baja, podremos decir que, probablemente, sí existe una diferencia real. Dicho de otro modo, rechazaremos la hipótesis nula y abrazaremos la alternativa. Y este es el valor de p: la probabilidad de obtener, por azar, una diferencia tan grande o mayor de la observada, cumpliéndose que no haya diferencia real en la población de la que proceden las muestras. Así, por convenio suele establecerse que si este valor de probabilidad es menor del 5% (0,05) es lo suficientemente improbable que se deba al azar como para rechazar con una seguridad razonable la H0 y afirmar que la diferencia es real. Si es mayor del 5%, no tendremos la confianza necesaria como para poder negar que la diferencia observada sea obra del azar. Este es el significado de la ansiada p < 0,05 que muchas veces buscamos con determinación al leer los trabajos de las revistas científicas (por no hablar del empeño de los que hacen o financian el trabajo). Fuente: https://scielo.isciii.es/scielo.php?script=sci_arttext&pid=S1139-76322017000500014 En resumen tenemos: 1) El valor de p significa que la probabilidad de que la hipótesis nula sea cierta. 2) Un valor de p < 0.05 significa que la hipótesis nula es falsa. 3) Un valor de p > 0.05 significa que la hipótesis nula es cierta. 4) Cuánto más pequeño es el valor de p, más fiable es el resultado del estudio. ## Regresiones en R Al construir regresiones es importante tener en cuenta la diferencia entre variables numericas y categoricas. Las primeras son un número que representa ese valor, como es el caso de la variable `ytotcorh`, las segundas pueden ser número como letras, pero en ambos casos representan un significado. Por ejemplo, la variable `region` tiene valores númericos pero el número significa una región en específico. Para poder trabajar con variables categoricas en regresiones es necesario utilizar la función `as_factor` ```{r} Casen2017$region <- as_factor(Casen2017$region) Casen2017$provincia <- as_factor(Casen2017$provincia) Casen2017$comuna <- as_factor(Casen2017$comuna) Casen2017$zona <- as_factor(Casen2017$zona) Casen2017$sexo <- as_factor(Casen2017$sexo) ``` ```{r} #Nota para el ayudante #La idea es mostrar que pasa cada vez que se agrega una variable, por ejemplo esc muestra los años de escolaridad y no es categorica, mostrar como se interpreta. #Agregar variables categoricas e interpretar, por ejemplo cuando hay intercepto este tiene las condiciones base, si agregamos 0 (quitar intercepto) mostrar como cambia. #Algunas regresiones propuestas a continuación reg <- lm(ytotcorh ~ 0 + sexo, data=Casen2017) summary(reg) ``` ```{r} reg <- lm(ytotcorh ~ esc + zona + sexo, data=Casen2017) summary(reg) ``` ```{r} reg <- lm(ytotcorh ~ provincia + sexo + esc, data=Casen2017) summary(reg) ``` ```{r} reg <- lm(ytotcorh ~ comuna, data=Casen2017) summary(reg) ``` ```{r} reg <- lm(ytotcorh ~ sexo + esc + edad, data=Casen2017) summary(reg) ```