{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Acerca del caso de estudio: QuickCall" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "QuickCall es un CallCenter cuya estrategia de negocios se enfoca en proveer un servicio al cliente de primera clase mediante respuestas en poco tiempo (rápidas) y altas tasas de resolución de problemas. QuickCall esta preocupado porque ha notado que en algunas semanas el tiempo de servicio ha aumentado considerablemente (ya no son tán rápidos). En una reciente reunión, el jefe de Operaciones, Rich Mantle describió lo siguiente:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\"Tenemos un serio problema con el servicio al cliente entregado por algunos de nuestros agentes. Observamos que la primera semana después de sus vacaciones, se demoran mucho más en proveer el servicio como si estuviesen extendiendo sus vacaciones!. Mi impresión es que durante la semana post-vacaciones la duración de las llamadas atendidas por estos agentes aumenta entre un 10% y 30%. Tenemos que hacer algo para que ellos vuelvan a su ritmo regular más rápido\"." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "El CEO de la compañia les da la tarea de realizar un análisis para corroborar los dichos de Rich Mantle. Para esto, el departamento de TI recopiló datos del proceso de control de calidad que QuickCall periodicamente realiza para evaluar el servicio que proveen los agentes. El archivo \"QuickCall.xls\" contiene data que tipicamente es registrada durante el proceso de control de calidad. Cada fila corresponde a una llamada específica de un cliente. Con respecto a este dataset, la muestra fue obtenida a partir de 5 agentes, considerando una llamada por hora en un periodo de 28 semanas. Todos los agentes realizan el turno de 9am a 5pm. Cada llamada registra el agente que la recibió, la fecha, hora/minuto, la semana del año, la duración de la llamada y un indicador que indica si se solucionó el problema que tenía el cliente." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import matplotlib.pyplot as plt\n", "import pandas as pd\n", "from scipy import stats\n", "from scipy.stats import norm\n", "from statsmodels.stats.weightstats import ttest_ind\n", "import seaborn as sns" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Exploración de datos" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Importemos el dataset mencionado. Recuerde que: es más fácil si deja los datos en la misma carpeta que el código, de lo contrario debe indicar la ruta completa de donde se ubica localmente el archivo. Veamos las primeras filas de este dataset." ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(1400, 9)\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
namefdateweekdayofweekhourmindurationfailureholiday_week
0Marta2014-04-2317310313.384666027
1Marta2014-04-2417410314.247913027
2Marta2014-04-2517510313.427917027
3Marta2014-04-2817110312.858705027
4Marta2014-04-2917210313.293070027
\n", "
" ], "text/plain": [ " name fdate week dayofweek hour min duration failure \\\n", "0 Marta 2014-04-23 17 3 10 31 3.384666 0 \n", "1 Marta 2014-04-24 17 4 10 31 4.247913 0 \n", "2 Marta 2014-04-25 17 5 10 31 3.427917 0 \n", "3 Marta 2014-04-28 17 1 10 31 2.858705 0 \n", "4 Marta 2014-04-29 17 2 10 31 3.293070 0 \n", "\n", " holiday_week \n", "0 27 \n", "1 27 \n", "2 27 \n", "3 27 \n", "4 27 " ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "#importamos los datos del excel, asegurarse que estan en la misma carpeta, de lo contrario agregar la dirección del archivo\n", "df = pd.read_excel(\"QuickCall.xls\") \n", "print(df.shape)\n", "df.head() #para explorar los datos, mostramos los primeros registros" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tenemos el nombre de los agentes (name), la fecha de la llamada (fdate), a qué semana pertenece (week), a qué día de la semana (dayofweek), la hora, el minuto, la duración de la llamada, la tasa de fallo (failure: si se resolvió el requerimiento por el cual llamaron o no) y holiday_week indica la semana en la cual el agente estuvo de vacaciones.\n", "\n", "Para obtener una idea de como se comportan los datos, podemos obtener estadística descriptiva con la función describe:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
weekdayofweekhourmindurationfailureholiday_week
count1400.0000001400.0000001400.0000001400.0000001400.0000001400.0000001400.000000
mean24.0000003.00000011.50000039.2500003.5420440.07500024.000000
std4.3275471.4147191.11843415.7119011.4108600.2634854.244157
min17.0000001.00000010.00000018.0000000.0000000.00000018.000000
25%20.0000002.00000010.75000027.7500002.5777980.00000020.000000
50%24.0000003.00000011.50000040.5000003.3891690.00000026.000000
75%28.0000004.00000012.25000052.0000004.2886760.00000027.000000
max31.0000005.00000013.00000058.00000010.0327231.00000029.000000
\n", "
" ], "text/plain": [ " week dayofweek hour min duration \\\n", "count 1400.000000 1400.000000 1400.000000 1400.000000 1400.000000 \n", "mean 24.000000 3.000000 11.500000 39.250000 3.542044 \n", "std 4.327547 1.414719 1.118434 15.711901 1.410860 \n", "min 17.000000 1.000000 10.000000 18.000000 0.000000 \n", "25% 20.000000 2.000000 10.750000 27.750000 2.577798 \n", "50% 24.000000 3.000000 11.500000 40.500000 3.389169 \n", "75% 28.000000 4.000000 12.250000 52.000000 4.288676 \n", "max 31.000000 5.000000 13.000000 58.000000 10.032723 \n", "\n", " failure holiday_week \n", "count 1400.000000 1400.000000 \n", "mean 0.075000 24.000000 \n", "std 0.263485 4.244157 \n", "min 0.000000 18.000000 \n", "25% 0.000000 20.000000 \n", "50% 0.000000 26.000000 \n", "75% 0.000000 27.000000 \n", "max 1.000000 29.000000 " ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.describe() #solo aparece para las variables numéricas" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Observemos que la media de duración de las llamadas esta en 3.542 y la tasa de fallas tiene una media de 0.075.\n", "\n", "Veamos el comportamiento desagregado por Agente:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
durationfailure
countmeanstdmin50%maxcountmeanstdmin50%max
name
Felipe280.02.4974030.7133500.5199872.4493314.522921280.00.0607140.2392330.00.01.0
Francisca280.03.5281080.5030982.2015523.5243185.266583280.00.0750000.2638630.00.01.0
Javier280.04.0590541.5071880.0000004.0950117.906882280.00.0750000.2638630.00.01.0
Marta280.03.1061121.0506670.2858983.1006016.098752280.00.0750000.2638630.00.01.0
Tomas280.04.5195421.8249370.0000004.58701510.032723280.00.0892860.2856660.00.01.0
\n", "
" ], "text/plain": [ " duration failure \\\n", " count mean std min 50% max count \n", "name \n", "Felipe 280.0 2.497403 0.713350 0.519987 2.449331 4.522921 280.0 \n", "Francisca 280.0 3.528108 0.503098 2.201552 3.524318 5.266583 280.0 \n", "Javier 280.0 4.059054 1.507188 0.000000 4.095011 7.906882 280.0 \n", "Marta 280.0 3.106112 1.050667 0.285898 3.100601 6.098752 280.0 \n", "Tomas 280.0 4.519542 1.824937 0.000000 4.587015 10.032723 280.0 \n", "\n", " \n", " mean std min 50% max \n", "name \n", "Felipe 0.060714 0.239233 0.0 0.0 1.0 \n", "Francisca 0.075000 0.263863 0.0 0.0 1.0 \n", "Javier 0.075000 0.263863 0.0 0.0 1.0 \n", "Marta 0.075000 0.263863 0.0 0.0 1.0 \n", "Tomas 0.089286 0.285666 0.0 0.0 1.0 " ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.groupby('name').describe(percentiles=[])[['duration', 'failure']]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "De los datos observamos que existen diferencias en las medias de duración de las llamadas atendidas por los agentes. Esto podemos observalo gráficamente también realizando un gráfico llamado “Boxplot”." ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Text(0.5, 1.0, 'Boxplot llamadas por agente')" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "sns.boxplot(x='name', y='duration', data=df)\n", "plt.title(\"Boxplot llamadas por agente\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En este tipo de gráfico se despliega la misma información que con la función summary(), es decir, estadística descriptiva de los datos: la linea gruesa del centro representa la mediana (50% de los datos). La Caja que se forma marcan el primer (linea inferior de la caja) y tercer (linea superior de la caja) cuartil (es decir, el 25% y el 75% de los datos). Luego, la línea punteada muestra hasta donde se extienden los valores de esa variable (mínimo y máximo). Finalmente, los círculos que aparecen fuera de los mínimos y máximos son valores considerados “outliers”. Es decir, valores extremos que no parecieran ser parte del grupo de datos." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Test de Diferencia de medias" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Vamos a partir realizando un test de diferencia de medias. Para esto, tomaremos de ejemplo a Javier y Marta, y realizaremos un test de hipótesis para ver si existe diferencia estadísticamente significativa entre la duración de las llamadas atendidas por estos dos agentes.\n", "\n", "Entonces, el test que realizaremos es el siguiente:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "$$H_{0}: \\bar{X}_{Marta} = \\bar{X}_{Javier}\\\\\n", " H_{A}: \\bar{X}_{Marta} \\neq \\bar{X}_{Javier}$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Para esto necesitamos las medias muestrales de Marta y Javier, sus desviaciones estándar muestrales y con esto podemos calcular el error estándar y el estadístico para el test." ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Promedio duración llamadas Marta: 3.106111888481038 , std: 1.0506669108350197\n", "Promedio duración llamadas Javier: 4.059054038035018 ,std: 1.5071879103823365\n", "Registros de Marta: 280\n", "Registros de Javier: 280\n" ] } ], "source": [ "df_marta = df[(df.name=='Marta')]\n", "df_javier = df[df.name=='Javier']\n", "\n", "x_marta = np.mean(df_marta.duration) \n", "std_marta = np.std(df_marta.duration, ddof=1)\n", "\n", "x_javier = np.mean(df_javier.duration) \n", "std_javier = np.std(df_javier.duration, ddof=1)\n", "\n", "n_marta = df_marta.count()[0] \n", "m_javier = df_javier.count()[0] \n", "\n", "print(\"Promedio duración llamadas Marta: \", x_marta, \" , std:\", std_marta)\n", "print(\"Promedio duración llamadas Javier: \", x_javier, \" ,std:\", std_javier)\n", "print(\"Registros de Marta: \", n_marta)\n", "print(\"Registros de Javier: \", m_javier)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Luego, recordemos que \n", "$$ S^{2} = \\frac{(n-1)S^{2}_{x} + (m-1)S^{2}_{y}}{n+m-2}$$\n", "Que en nuestro caso será:" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Error estándar estimado: 0.10979715639575484\n" ] } ], "source": [ "#estimamos la varianza de las dos muestras conjuntas: usamos las duraciones de Marta y \n", "#de Javier en conjunto\n", "#pues estamos asumiendo que sus varianzas son iguales.\n", "Sp_2 = ((std_javier **2)*(m_javier-1) + (std_marta **2)*(n_marta-1))/(n_marta + m_javier - 2)\n", "#calculamos en base a la varianza, el error estándar para la muestra conjunta.\n", "SE = np.sqrt(Sp_2*((1/n_marta) + (1/m_javier)))\n", "print(\"Error estándar estimado: \", SE)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Obteniendo ya el error estándar, podemos calcular el valor del estadístico. Recordemos que:\n", "$$ t = \\frac{\\bar{X}_{Marta} - \\bar{X}_{Javier}}{\\sqrt{S^{2}(\\frac{1}{n_{marta}} + \\frac{1}{n_{javier}})}}$$" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "El valor del estadístico es: 8.679115022971803\n" ] } ], "source": [ "alpha = 0.05 #fijamos el nivel de significancia estadística\n", "t=np.abs(x_marta-x_javier)/SE #calculamos el estadístico\n", "print(\"El valor del estadístico es: \", t)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Veamos cuantos datos tenemos:" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "n+m-2: 558\n" ] } ], "source": [ "print(\"n+m-2: \",n_marta + m_javier - 2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Como tenemos un n grande podemos contrastar nuestro estadístico contra el valor de una $\\mathcal{N}(0,1)$. Para un $\\alpha = 0.05$, tenemos que:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "El valor de tabla de nuestra distribución es: 1.959963984540054\n" ] } ], "source": [ "z_alpha = norm.ppf(1 - alpha/2) #calculamos el z sobre una normal(0,1) a nivel alpha/2.\n", "print(\"El valor de tabla de nuestra distribución es: \", z_alpha)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Luego, observamos que $t > t_{0.975}$, es decir, $8.6791 > 1.96$. Por lo cual, rechazamos la hipótesis nula de que la media de la duración de llamadas atendidas por Marta es igual a la media de la duración de llamadas atendidas por Javier. \n", "\n", "Aprovechemos y calculemos las otras dos formas de realizar la conclusión del test de hipótesis: El intervalo de confianza y el p-valor.\n", "\n", "Para el intervalo de confianza tenemos que:" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Intervalo de confianza para la diferencia de medias: [0.7377436774133894, 1.1681406216945716]\n" ] } ], "source": [ "IC = [np.abs(x_marta-x_javier)-z_alpha*SE, np.abs(x_marta-x_javier) + z_alpha*SE]\n", "print(\"Intervalo de confianza para la diferencia de medias: \", IC)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Es decir, con un 95% de confianza podemos decir que la diferencia en la media de la duración de las llamadas entre Marta y Javier se mueve en el rango de [0.74, 1.17]. Como este intervalo NO contiene al 0, entonces podemos afirmar que se rechaza la hipótesis nula.\n", "\n", "Con respecto al p-valor, necesitamos mirar el valor en la distribución normal para el valor de nuestro estadístico, es decir:" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "p-value: 0.0\n" ] } ], "source": [ "p_valor = 2*(1-norm.cdf(t)) #calculamos el p valor\n", "print(\"p-value:\", p_valor)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Como $p-valor < \\alpha$ entonces podemos rechazar la hipótesis nula. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Utilizando librerías de Python" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Python cuenta con librerías para realizar test de hipótesis y varios de los análisis que realizaremos en el curso (modelos). Es por esto que podemos ahorrarnos todos los cálculos usando las funciones de estas librerías. En el caso del test de diferencia de medias utilizamos la siguiente función" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(-8.679115022971803, 4.3845138378302855e-17, 558.0)" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "ttest_ind(df_marta.duration, df_javier.duration)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lo que nos entrega esta función de Python es el valor del estadístico, el p-valor para un test de 2 colas y el \"n\". La librerías en R para estos casos son más completas por la naturaleza de R. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Propuesto" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bueno, pero lo que le interesaba al CEO cuando introdujimos este caso es verificar si los agentes cuando vuelven de sus vacaciones se demoran más en las llamadas o no. Para comprobar esto, realice un test de hipótesis de diferencia de medias para uno de los agentes. La hipótesis nula que debe testear es la siguiente:\n", "\n", "$$ H_{0}: \\bar{X}_{preHoliday} = \\bar{X}_{weekPostHoliday}\\\\\n", " H_{A}: \\bar{X}_{preHoliday} < \\bar{X}_{weekPostHoliday}$$\n", "\n", "Para esto debe seleccionar un agente, y para ese agente calcular la media de duración de llamadas en todas las semanas pre-vacaciones y la media de duración de llamadas justo la semana post-vacaciones. Y realizar un test de una cola. Puede realizar todos los cálculos como lo hicimos en este tutorial o utilizar alguna función en Python para realizar el test.\n", "\n", "Luego, el CEO indica que \"la duración de las llamadas atendidas por estos agentes aumenta entre un 10% y 30%\". ¿Esto es cierto para el agente que usted acaba de analizar?\n", "\n", "Entregue sus resultados en la sección de Tareas habilitada para este tutorial." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.10" } }, "nbformat": 4, "nbformat_minor": 2 }