***********PRUEBA 2************** *(1) Una vez descargada la CASEN revisamos que las comunas de interes son 6301, 6310, 13112 y 13114. Primero reducir el nivel de data del DTA keep comuna yautcorh y2603h sexo /* (a) Seleccione las comunas de Santa Cruz y San Fernando y calcule y explique en sus propias palabras un intervalo de confianza para la diferencia de ingresos (yautcorh) entre los habitantes de ambas comunas*/ keep if comuna==6301 | comuna==6310 ttest yautcorh, by (comuna) /*Respuesta: El intervalo de confianza (95%) de la diferencia de ingreso entre ambas comunas indica que se presentan diferencias de ingreso entre las comunas de Santa Cruz y San Fernando entorno al 14.574,53 y 115.169,1, ahora bien, al observar el p valor nos damos cuenta que dicha diferencia es poco significativa ya que p-value=0.12 es mayor al nivel de significancia (0.05)*/ /* (b) Realice el mismo ejercicio anterior para la comuna de La Pintana y Las Condes agregando la variable Jubilación o pensión por vejez (y2603h), haciendo una separación por sexo (1=Hombre 2=Mujer). Si usted elimina los valores de pension cero con drop if, sus resultados cambiaran, por tanto, se puede ver primero con los ceros y luego sin ellos*/ keep if comuna==13112 | comuna==13114 bysort sexo: ttest y2603h, by (comuna) drop if y2603h==0 bysort sexo: ttest y2603h, by (comuna) /*Respuesta: Quitando los valores de cero, cambiaran los resultados de los intervalos y el p valor (aunque aca marginalmente). Con Drop: En el caso de los hombres el intervalo de confianza al (95%) evidencia que las diferencias de jubilación/pensión en las comunas de Las Condes y La Pintana son alrededor de 456.246,6 y 803.578,5 ,y además, se aprecia que dicha diferencia es significativa debido a que el p-value=0 es menor al nivel de significancia (0.025), mientras que en el caso de las mujeres el intervalo de confianza (95%) se evidencia que las diferencias de jubilacion/pensión en las comunas de Las Condes y La Pintana son alrededor de 365.465 y 684.820,1 , y tambien, se aprecia que dicha diferencia es significativa debido a que el p-value=0 es menor al nivel de significancia (0.025)*/ /* (c) Para las mismas comunas de la letra anterior, efectué un test de hipótesis para verificar primero con un 90, 95% y 99% de nivel de confianza si la proporción de jefes de hogar que son hombres en la comuna de Las Condes es mayor que la proporción de jefes de hogar que son hombres en la comuna de La Pintana*/ *Habia diferentes formas de abordarlo. Se reviso caso a caso. *_______________________________________________________________________________________* /* (2) El Registro Civil posee varias oficinas en la Región Metropolitana, pero hay dos de ellas que reciben mucha atención según se ven las filas (Santiago y Las Condes). El nuevo Director del Servicio está estudiando la idea de aumentar el Subt. 21 en una de ellas para mejorar la atención, por ello recurre a la cantidad promedio de atenciones efectivas realizadas en el país (correspondiente a 420 atenciones diarias). Según el último reporte trimestral, cada sucursal tiene: (a) Sobre la base de la evidencia muestral, ¿Se puede afirmar con un 90% de nivel de confianza que cada una de estas dos oficinas atienda más que el promedio mensual nacional? Primero debemos obtener las desviaciones estandar, aplicando raiz a 49 y 36, obteniendo 7 y 6 respectivamete. H0: Promedio Comunal=Promedio Nacional H1: Promedio Comunal>Promedio Nacional Las Condes:*/ ttesti 420 442 7 "420",level (90) * Es probable que Ud. haya hecho: ttesti 2 442 7 "420",level (90) *Santiago: ttesti 420 460 6 "420",level (90) * Es probable que Ud. haya hecho: ttesti 2 460 6 "420",level (90) *T de Tabla: di invt(1,0.1) /* Con un 90% de confianza, se puede afirmar que ambas oficinas poseen un IC que esta sobre el promedio mensual nacional correspondiente a 420 atenciones diarias (b) ¿Se puede afirmar con un 95% de nivel de confianza que las oficinas atienden cantidades diferentes de usuarios promedio? H0:Ambas Comunas atienden cantidades iguales H1: Ambas comunas atienden cantidades diferentes*/ ttesti 420 442 7 2 460 6, level (95) * Es probable que Ud. haya hecho: ttesti 2 442 7 2 460 6, level (95) *T de Tabla: di invt(2,0.05) /* (c) ¿Se puede afirmar con un 92% de nivel de confianza que Santiago atiende más que las Condes? HO: Comuna de Santiago=Comuna de Las Condes -la atención promedio- H1: Comuna de Santaigo>Comuna de Las Condes -la atención promedio-*/ ttesti 420 442 7 2 460 6, level (92) * Es probable que Ud. haya hecho: ttesti 2 442 7 2 460 6, level (92) *T de tabla: di invt(2,0.08) /* *_______________________________________________________________________________________* (3) El mismo Director, ansioso de hacer cambios, estudia el desempeño de los trabajadores incorporando incentivos adicionales a los incentivos monetarios entregados por los PMG-CDC. De acuerdo con estimaciones del Departamento de Estudios de la institución, la cantidad de horas -reales- de trabajo son 35 horas promedio semanales (y no 44 como dice el contrato)*/ * (a)Estime un intervalo de confianza para la cantidad de horas semanales trabajadas en ambos grupos *Grupo Tratamiento ttesti 5 39 6 "35", level(95) *Respuesta: El promedio de horas semanales trabajadas por este grupo se encuentra entre las 31 y 46.44998 horas semanales. *Grupo Control: ttesti 8 33 8 "35", level(95) *Respuesta: El promedio de horas semanales trabajadas por este grupo se encuentra entre las 26.31183 y 39.68817 horas semanales. * (b) Determine un intervalo de confianza para la diferencia de medias muestrales (90 y 95% NC) ttesti 5 39 6 8 33 8,level (95) ttesti 5 39 6 8 33 8,level (90) *Respuesta: La diferencia del promedio de horas semanales trabajadas entre el Grupo Tratamiento y Control se encuentra entre las 3.20499 y 15.20499 horas semanales para un 95% * en el caso de 10% se encuentra en el rango 1.51 y 13.51. Ambos valores son estadisticamente insignificativos. *(c) ¿Existe suficiente evidencia para afirmar que la estrategia del Director fue positiva? (90 y 95% y 99% NC) *H0: Grupo Tratamiento = Grupo Control (Siguen con el mismo desempeño en terminos de horas de trabajo) *H1: Grupo Tratamiento != Grupo Control (No presentan el mismo desempeño en terminos de horas de trabajo) ttesti 5 39 6 8 33 8,level (90) ttesti 5 39 6 8 33 8,level (95) ttesti 5 39 6 8 33 8,level (99) *T de tabla: di invt(11,0.025) /* *_______________________________________________________________________________________* (4) El SERVIU en su PMG de Reclamos contestados, publica cifras de los reclamos realizados por sus usuarios durante el año 2019. Se encuentran 1585 reclamos, siendo 369 efectuadas por usuarios que encontraron que los procesos de postulación eran vergonzosos. En 2020, la Directora del Servicio solicitó -pre covid- un análisis de los reclamos, revelando de una muestra aleatoria de 215 usuarios insatisfechos, el 35% de ellas se deben por los procesos engorrosos y vergonzosos de los procesos de postulación. Al respecto: (a) ¿Se puede afirmar que los usuarios están significativamente más contentos con los procesos de postulación del Servicio? (utilice un NC de 90 y 95%) Primero hay que ver que el 23% de los reclamos fueron considerados postulaciones vergonzosas (369/1585) para el 2019. Luego, en el 2020 tenemos una muestra (n) de 215 personas insatisfechas y el 35% se vincularon a postulaciones. Tenemos que trabajar con PROPORCIONES H0: Usuarios estan igual de contentos H1: Usuarios estan significativamente mas contentos */ prtesti 215 0.35 0.23, level (90) prtesti 215 0.35 0.23, level (95) *t "de tabla": di invnormal(0.1) di invnormal(0.05) /*Respuesta: COnsiderando que el Z "calculado"=4.1811 (en 90 y 95% nivel de Confianza) es mayor al t "de tabla"= 1.2815516 (90% de Confianza) y 1.6448536 (95% de Confianza), se puede señalar que en ambos casos se rechaza la H0 y no se rechaza o "se acepta" la H1. Por otro lado, al revisar el p valor en ambos casos es menor al nivel de significancia (10-5%), por lo tanto, se rechaza la H0 usando esa metodologia. En base a esto, podemos declarar que existe evidencia estadisticamente significativa que permite afirmar, con un 90-95% del nivel de confianza, de que los usuarios estan significativamente mas contentos con los procesos de postulación del Servicio (b) ¿Es posible afirmar, según los datos de la muestra, que la insatisfacción por otras razones no asociadas a la postulación ha disminuido? (utilice un NC de 90 y 95%) La diferencia del 35% del 2020 corresponde al 65%, y la del 2019 corresponde a 0.7667 (dado que el exito era 0.23) H0: Insatisfacción no-asociada a la postulación se mantiene H1: Insatisfacción no-asociada a la postulación ha disminuido*/ prtesti 215 0.65 1585 0.7667,level (90) prtesti 215 0.65 1585 0.7667,level (95) *t "de tabla": di invnormal(0.1) di invnormal(0.05) /*Respeusta: Dado que el t "calculado"= 3.7227 (90-95% de confianza,valor absoluto) es mayor al t "de tabla"= 1.2815516 (90% de Confianza) y = 1.6448536 (95% de confianza), tenemos rechazar la H0 para no cometer ningun error. Asimismo, con el el p-value= 0.0001 (90-95% de Confianza), es decir, es menor al nivel de significancia (10% - 0.1) (5% - 0.05), entonces la probabilidad de cometer un error tipo I es más baja que el 10-5% de significancia, por lo tanto se rechaza la hipótesis nula. Con esto podemos decir que existe evidencia estadisticamente significativa que permite afirmar que con un 90-95% del nivel de confianza, se produjo una disminución en relación a la insatisfacción no-asociada a la postulación. (c) ¿Se puede afirmar -con un 90% y 95% de nivel de confianza- que se produjo un cambio significativo en los porcentajes de reclamos en el periodo 2019-2020? HO: Reclamos 2019 = Reclamos2020 H1: Rechamos 2019 != Reclamos 2020*/ prtesti 215 0.35 1585 0.23,level(90) (95) *T de tabla: di invnormal(0.05) di invnormal(0.025) /*Respuesta: Dado que el t "calculado"= 3.8426 (90-95% Confianza) es mayor al t "de tabla" para ambos alpha -1.6448536 (10% Significación) y -1.959964 (5% de Significación), se debe rechazar la hipótesis nula. El p-value=0.0001 (90-95% Confianza) es menor al nivel de significancia (10% - 0.05) (5% - 0.025) entonces se rechaza la hipótesis nula. En base a esto, existe evidencia estadísticamente significativa que permite afirmar, con un 90-95% de nivel de confianza, que SI se produjo una diferencia significativa entre 2019-2020. *_______________________________________________________________________________________* (5) Generalmente las alumnas y los alumnos de Administración Pública de la Universidad de Chile obtienen promedio 3.8 en Estadística para la Gestión II, con una de las tasas de aprobación más bajas: 31%. La Dirección de la Escuela decide aplicar un curso de ayuda a los 42 estudiantes con notas más bajas de Estadística para la Gestión I que están con el profesor más joven, se aplica por un mes de clases (lo que explica la baja asistencia), y al terminar el semestre los alumnos obtienen una nota promedio de 4.0, con una desviación de 0.88. Tenemos desviación declarada en 0.88, tenemos un promedio de 4 asociada a la nota, y tenemos un n de 42 personas. (a) ¿Se puede afirmar (con un 95% de nivel de confianza) que la idea del Director fue efectiva? ¿Cómo cambiaria su respuesta si el n se redujera a 20 estudiantes y su nota promedio fuese un 3.6? Primero tenemos que definir las Hipotesis respectivas. Queremos ver en esta instancia si la idea fue efectiva o no siendo mayor a 3.8: HO: Idea no efectiva Xprom < 3.8 H1: Idea efectiva Xprom > 3.8 */ ttesti 42 4 0.88 "3.8",level (95) *T de tabla: di invt(41,0.05) /* Al cambiar el n y el promedio de notas: HO: Idea no efectiva Xprom < 3.6 H1: Idea efectiva Xprom > 3.6 */ ttesti 20 4 0.88 "3.6",level (95) *T de tabla: di invt(19,0.05) /* Respuesta: EN el primer caso, vemos que que el t "calculado"= 1.4729, es decir, es menor al t "de tabla"= 1.682878 (valor absoluto). Por tanto, no se rechaza la hipótesis nula, o dicho de otra forma, se debe rechazar la alternativa. Es decir, la idea no fue efectiva. El p valor incluso en este caso es 0.0742, por tanto, este valor tambien es mayor al nivel de significancia (5% - 0.05), y desde luego, tenemos mas pruebas para rechazar la hipotesis alternativa. En este sentido, se puede señalar que no existe evidencia estadísticamente significativa que permita afirmar, con un 95% de nivel de confianza, de que la idea del director fue efectiva. Si se redujera a 20 estudiantes la muestra y su nota promedio fuese 3.6, encontramos diferencias ya q "calculado"=2.0328 es mayor al t "de tabla"= 1.7247182 ,es decir, se tiene que rechazar la H0 y no rechazar la H1. El p-value=0.0281 es menor al nivel de significancia (0.05), por lo tanto se rechaza la hipótesis nula y se conserva la hipotesis alternativa. Vale decir, existe evidencia estadísticamente significativa que permita afirmar, con un 95% de nivel de confianza, de que la idea del director fue efectiva (b) ¿Se puede afirmar (con un 10% de significación) que la medida tomada logró aumentar, significativamente, el rendimiento de los alumnos? HO: No aumento el promedio de los alumnos H1: Aumento el promedio de los alumnos.*/ ttesti 42 4 0.88 "3.8",level (90) * T de tabla: di invt(41,0.1) /* Respuesta: El t "calculado"= 1.4729 es mayor al t "de tabla"= 1.3025434 (valor absoluto), por ende se debe rechazar la hipótesis nula y "aceptar" o no rechazar la H1.Asimismo, el p-value=0.0742 es menor al nivel de significancia (10% - 0.1), por lo tanto se rechaza la hipótesis nula bajo esta lógica. Podemos decir que la idea del Director funciona con un nivel de confianza del 90% hacia abajo, y existiría evidencia estadísticamente significativa que permitiria afirmar que la medida tomada logró modificar el rendimiento los estudiantes si y solo si alpha es igual o mayor a 8%. *_______________________________________________________________________________________* (6) La siguiente tabla presenta los datos obtenidos aplicando el cuestionario de la encuesta CASEN a dos grupos de 21.500 hogares cada uno: La tabla nos muestra la Poblacion, Ingresos y Varianza. Primero encarguemonos de las Desviaciones Estándar. Aplicamos Raiz cuadrada a cada Varianza y obteniemos Desv. estandar Renca (31.272,7101) Desv. estandar San Joaquin (44.384,2314) El N viene descrito en el enunciado y no en la tabla. SON 21.500 Hogares cada Comuna. La Población servia para calcular el Ingreso Promedio. Por tanto, en el caso de Renca ($35.003.000.000)/(85.000 personas) = $ 411.800, para el caso de San Joaquin tenemos $512.452 *(A) Determinar un Intervalo de confianza (95% de NC) para los ingresos de los hogares de Renca y para los ingresos de San Joaquin*/ cii 21500 411800 31272,level (95) cii 21500 512452 44384,level (95) * Es probable que Ud. haya hecho: cii 85000 35003 31272,level (95) cii 124000 63544 44384,level (95) /* Respuesta: Existeun 95% de probabilidad de que el ingreso de los hogares en Renca se encuentre, en promedio, entre $XX y XX a diferencia, de San Joaquin que comprende un promedio mas alto $XX y $XX*/. * (B) Determinar un intervalo de confianza para la diferencia de medias muestrales de ingresos de los hogares de ambas comunas (95% de NC) ttesti 21500 411800 31272 21500 512452 44384,level (95) * Es probable que Ud. haya hecho: ttesti 85000 35003 31272 124000 63544 44384,level (95) /*Respuesta: El intervalo de confianza de la diferencia de ingreso entre ambas comunas indica que al 95% de las diferencias de ingreso entre Renca y San Joaquin se encontraran entre XXXX. La diferencia se puede considerar como estadísticamente significativa al 95% ya que el p value es menor al nivel de significancia (0<0.05).