--- title: "Ayudantía 4" date: "Semestre otoño 2021" output: html_document --- # Repaso Estadística Descriptiva Para esta sesión, utilizaremos la base de datos `Simce Colegios 2018` que viene en formato stata. Este archivo contiene, tal como su nombre lo dice, el resultado de las pruebas simce realizada en los colegios en el año 2018. De igual forma, la base de datos trae información relativa a la dependencia de los colegios y su categoría de desempeño respectiva. Por lo anterior, y con el fin de realizar un análisis descriptivo, utilizaremos el paquete `haven` para llevar a cabo la importación de la base de datos y, asimismo, importar las etiquetas de las variables catégoricas que están presentes en la base de datos (zona, dependencia, desempeño y región). ```{r} library(haven) Simce_2018<-read_dta("Simce Colegios 2018.dta") Simce_2018$fzona<- as_factor(Simce_2018$zona) Simce_2018$fdependencia<- as_factor(Simce_2018$Dependencia) Simce_2018$fdesempeño<-as_factor(Simce_2018$desempeno) Simce_2018$fregion<-as_factor(Simce_2018$region) ``` Ahora, nos adentraremos a responder las siguientes preguntas: **1)**¿Existen más colegios particulares subvencionados o municipales en la zona urbana a nivel nacional? ¿Lo anterior se replica en el caso de la región de Coquimbo? ¿Y en el caso de la región de Los Ríos? Para responder la primera pregunta, utilizaremos el comando `table` en donde ubicaremos la variable relativo a la zona de los colegios en primer lugar, para que tome la posición de las columnas; y en segundo lugar ubicaremos la variable referente a la dependencia de los colegios para que ocupe la posición de las filas. ```{r} table(Simce_2018$fdependencia,Simce_2018$fzona) ``` Con la información anterior, podemos establecer que existen 1469 colegios particulares subvencionados en las zonas urbanas a nivel nacional siendo mayor que los colegios municipales (sean DAEM o de corporación municipal). Ahora bien, para conocer el caso de la región de coquimbo, nos vemos en la obligación de crear objeto que posea las mismas variables que la base de datos `Simce_2018` pero que contenga solo las observaciones correspondientes a la región de Coquimbo. Lo anterior lo realizaremos con los `pipes` y la función `filter` del paquete `tidyverse` de la siguiente forma: ```{r} library(tidyverse) Simce_Coquimbo <- Simce_2018 %>% filter(fregion=="Coquimbo") ``` Ahora nos encontramos en disposición de realizar la tabulación de la variable zona y dependencia tal como lo hicimos en el primer caso. ```{r} table(Simce_Coquimbo$fdependencia,Simce_Coquimbo$fzona) ``` En el caso de la región de Coquimbo, existen 84 colegios particular subvencionados, siendo, de igual forma que a nivel nacional, la categoría con más cantidad de colegios en desmedro de los colegios municipales. Ahora, para analizar el caso de la región de Los Ríos, utilizaremos el mismo procedimiento que ejecutamos para los casos de la región de Coquimbo, es decir, crearemos un objeto que tenga solo las observaciones de la región de Los Ríos para analizar la información correspondiente. ```{r} Simce_Rios <- Simce_2018 %>% filter(fregion=="Los Rios") table(Simce_Rios$fdependencia,Simce_Rios$fzona) ``` En este caso, hay 35 colegios particulares subvencionados siendo, al igual que a nivel nacional y en la región de Coquimbo, la mayor cantidad de colegio en contraste a los colegios municipales. **2)**¿Existe algún sesgo en la distribución del Simce de Matemáticas en la región Metropolitana? ¿Es mayor al de la región de Los Lagos? Argumente lo anterior utilizando la media y mediana de la variable correspondiente. Para responder lo anterior, crearemos dos objetos: uno que contenga las observaciones de la región Metropolitana y otro que contenga las observaciones de la región de Los Lagos. Con lo resultante, podremos obtener la media y mediana de ambos casos para analizar los sesgos de la distribución del simce de Matemáticas. ```{r} simce_RM<-Simce_2018 %>% filter(fregion=="Metropolitana") simce_Lagos<-Simce_2018 %>% filter(fregion=="Los Lagos") mean(simce_RM$Simce_Mat) median(simce_RM$Simce_Mat) mean(simce_Lagos$Simce_Mat) median(simce_Lagos$Simce_Mat) ``` A raíz de la información anterior, podemos inferir que, en ambos casos, existen sesgos a la derecha de la distribución del simce de Matemáticas. Sin embargo, el sesgo debiese ser levemente mayor en el caso de la región de Los Lagos debido a que existe una diferencia de casi 10 puntos entre la media y mediana del simce, en contraste a la región Metropolitana, en donde la diferencia es de, aproximadamente, 7 puntos. **3)**¿Qué variable presenta una mayor dispersión en la zona urbana: la matrícula o el simce de lenguaje? Para lo anterior, generaremos, nuevamente, un objeto que contenga sólo las observaciones correspondientes a la zona urbana. ```{r} simce_urbana<-Simce_2018 %>% filter(fzona=="Urbano") ``` Ahora, en lo que concierne a la dispersión de las variables mencionadas podemos utilizar el coeficiente de variación para obtener la información correspondiente, entendiendo que esta medida tiene mayor preponderancia al momento de entender la dispersión de variables. Para lo anterior, tenemos 2 opciones: 1) dividir la desviación estándar de cada variable por la media de ésta; 2) calcular directamente el coeficiente utilizando el paquete `FinCal`. En este sentido, la primera opción se desarrolla de la siguiente forma: ```{r} sd(simce_urbana$matricula)/mean(simce_urbana$matricula) sd(simce_urbana$Simce_Leng)/mean(simce_urbana$Simce_Leng) ``` Y, en el caso de la segunda opción, debemos realizar lo siguiente: ```{r} library(FinCal) coefficient.variation(sd=sd(simce_urbana$matricula), avg = mean(simce_urbana$matricula)) coefficient.variation(sd=sd(simce_urbana$Simce_Leng), avg = mean(simce_urbana$Simce_Leng)) ``` En ambos procedimientos, el coeficiente de variación para la matrícula en la zona urbana corresponde a 0.6467689 y, para el simce de lenguaje en la misma zona, es de 0.09779272. Por lo anterior, la matrícula posee una mayor dispersión que el simce de lenguaje en la zona urbana. **4)**Realice un histograma para la matrícula, diferenciando por zona urbana y rural y con un título adecuado ¿Qué se puede concluir respecto a la curtosis y asimetría de ambas gráficas? Para esta pregunta, debemos crear un objeto que tenga solo las observaciones de la zona rural a nivel nacional (entendiendo que en la pregunta anterior generamos lo mismo pero para la zona urbana). ```{r} simce_rural<-Simce_2018 %>% filter(fzona=="Rural") ``` Luego, solo nos queda graficar para cada caso la variable matrícula. ```{r} hist(simce_urbana$matricula, main="Matrícula en Zona Urbana") hist(simce_rural$matricula, main="Matrícula en Zona Rural") ``` Finalmente, a partir de las gráficas, se puede concluir que la matrícula, en ambas zonas, tiene un sesgo a la derecha, por lo cual, en los dos casos, la media es mayor a la mediana y, además, se concluye que ambas zonas tienen una asimetría mayor a 0. Cabe destacar que ambas presentan una forma leptocúrtica, por lo que tienen una curtosis mayor a 3. **5)**¿En que tipo de colegios el simce de matemáticas es más disperso? Utilice un gráfico de caja para apoyar su respuesta. Para esta pregunta, realizaremos un gráfico de caja con el comando `plot` en donde ubicaremos, en primer lugar, la variable categórica por la cual dividiremos la información (dependencia) y, en segundo lugar, colocaremos la variable numérica a analizar (simce de matemáticas). Posteriormente, añadiremos los títulos correspondientes a cada eje y, finalmente, un color distintivo para cada caso con el fin de diferenciar la información. ```{r} plot(Simce_2018$fdependencia, Simce_2018$Simce_Mat, xlab="Dependencia", ylab="Simce Matemáticas", col=c("green","red","yellow","orange","pink")) ``` A raíz de la información anterior, es posible concluir que la mayor disperisón del simce de matemáticas se da en los colegios particulares y en los particulares subvencionados dado que, en ambos casos, su valor mímino y máximo se encuentran muy distantes entre sí. De igual forma, los colegios particulares presentan muchos outliers bajo el valor mínimo del simce de matemáticas. Finalmente, es necesario recalcar que en los colegios municipales (corporaciones y DAEM) existe una gran cantidad de colegios que escapan de los valores promedios del simce de matemáticas.