# Pandas: A Data Analysis Library
http://pandas.pydata.org/pandas-docs/stable/10min.html#min

http://pandas.pydata.org/pandas-docs/stable/tutorials.html

In [None]:
import pandas as pd
from IPython.display import display # para que al imprimir tablas con print() salgan bonitas
import numpy as np
import matplotlib.pyplot as plt

Se crea una serie pasando una lista de valores. Por default pandas crea un índice entero:

In [None]:
s = pd.Series([1,3,5,np.nan, 6,8], dtype=np.float32)
s

Para crear un 'DataFrame' se entrega un 'numpy array', con un índice de 'datatimes' y columnas con etiquetas:

In [None]:
dates = pd.date_range('20170101', periods = 6, freq='W-MON')
display(dates)

In [None]:
df = pd.DataFrame(np.random.randn(6,4), index = dates, columns = list('ABCD'))
df

Crear un 'dataframe' pasando un diccionario de objetos que pueden ser convertidos a una serie

In [None]:
df2 = pd.DataFrame({'A': 1.,
 'B': pd.Timestamp('20170713'),
 'C': pd.Series(1,index=list(range(4)),dtype='float32'),
 'D': np.array([3]*4, dtype='int32'),
 'E': pd.Categorical(["test","train","test","train"]),
 'F': 'foo'})

df2

Con 'dtype' específicos

## Viendo los datos

Ver la parte superior o inferior de una tabla

In [None]:
df.head()

In [None]:
df.tail(3)

Mostrar el índice, las columnas, los datos e información adicional

In [None]:
display(df.index)
display(df.columns)
display(df.values)
display(df.shape)
display(df.count())
df.info()

Viendo un resumen de los datos:

In [None]:
df.describe()

Trasponiendo los datos

In [None]:
df.T

In [None]:
df.describe().T

In [None]:
df.T.describe().T

Ordenando por ejes:

In [None]:
df.sort_index(axis=0, ascending=False)

In [None]:
df.sort_values(by='C', ascending=False).sort_index(axis=1, ascending=False)

In [None]:
df

## Selección

Obtener una columa sola

In [None]:
df['D']

In [None]:
df.A

Usando [ ] podemos sacar tajadas (filas)

In [None]:
df[0:3]

In [None]:
df['20170103':'20170205']

## Seleccionado por etiquetas:

Para obtener una sección usando etiquetas, y una selección multi-eje:

In [None]:
dates[0]

In [None]:
df.loc[dates[0]]

In [None]:
df.loc[:,['A','B']]

Mostrando un corte por etiqueta, especificando los puntos de término:

In [None]:
df.loc['20170102':'20170204',['A','B']]

Reduciendo la dimensión del objeto entregado:

In [None]:
df.loc['20170102',['A','B']]

Para obtener un valor escalar

In [None]:
%timeit df.loc[dates[0],'A']

Para obtener rápido acceso a un escalar 

In [None]:
%timeit df.at[dates[0],'A']

## Selección por posición

Se selecciona la posición de los indices entregados

In [None]:
df

In [None]:
df.iloc[3]

Cortes usando enteros actúa igual que numpy

In [None]:
df.iloc[3:5,0:2]

Una lista de posiciones enteras:

In [None]:
df.iloc[[1,2,4],[0,2]]

Cortes explícitos de filas y columnas:

In [None]:
df.iloc[1:3,:]

In [None]:
df.iloc[:,1:3]

Para acceder a un valor explícito

In [None]:
df.iloc[1,1]

Para obtener rápido acceso a un escalar:

In [None]:
df.iat[1,1]

## Indices booleanos
Usando los valores de una columna para extraer datos, cuando una condición se satisface:


In [None]:
df

In [None]:
df.A>0

In [None]:
df[df.A>0]

Se usa la función 'isin()' para filtrar:

In [None]:
df2 = df.copy()
df2['E']=['one','one','two','three','four','three']
df2

In [None]:
df2.E.isin(['two','four'])

In [None]:
df2[df2.E.isin(['two','four'])]

## Advanced Indexing

In [None]:
df2

In [None]:
df2.filter(items = ['A','D'])

In [None]:
df2.filter(like = '-01', axis=0)

In [None]:
df2.filter(regex = '2017-01-0[29]', axis=0)

In [None]:
df2.select(lambda x: x > pd.Timestamp('2017-01-23'))

In [None]:
df2.select(lambda x: x > 'B', axis=1)

In [None]:
df2.where(df2 > 0)

In [None]:
df2.where(df2 < 0)

In [None]:
df2.query('A > B')

In [None]:
df2.query('C**2 > A**2 + B**2 ')

In [None]:
df2.query('A > B and B > C')

## Configurando

Setear una nueva columna alinea automáticamente los datos por sus índices:

In [None]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20170101', periods = 6, freq='W-MON'))
display(s1)
df['F'] = s1

In [None]:
df

Seteando valores por etiqueta:

In [None]:
df.at[dates[0],'A']=0

Seteando valores por posición:

In [None]:
df.iat[0,1]=0

In [None]:
df

Seteando valores usando un 'numpy array' y mostramos el resultado

In [None]:
df.loc[:,'D'] = np.array([5] * len(df))

df

In [None]:
df['D'] = np.array([6] * len(df))

In [None]:
df

Una operación 'where' para setear:

In [None]:
df2 = df.copy()
df2[df2>0] = -df2
df2

## NaN

Pandas usa primariamente el valor 'np.nan' para representar datos faltantes. 

Reindexar permite cambiar/añadir/borrar el índice de un eje expecífico. Esto entrega una copia de los datos

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns)+['E'])
df1.loc[dates[0]:dates[1],'E']=1
df1

Eliminando las filas que tienen datos faltantes:

In [None]:
df1.dropna(how='any')

Rellenando los datos faltantes

In [None]:
df1.fillna(value=-100)

Para obtener los valores booleanos cuando hay NaN

In [None]:
pd.isnull(df1)

In [None]:
df1.replace(np.nan, 'Null')

In [None]:
df1.replace(6, 5.999999)

In [None]:
df1

In [None]:
df1.replace(6, 5.999999, inplace=True)

In [None]:
df1

## Stats

efectuando estadísticas descriptivas

In [None]:
df.mean()

Misma operación para el otro eje:

In [None]:
df.mean(axis=1)

Operando con objetos que tienen diferente dimensionalidad necesita un alineamiento. En adición, pandas automaticamente difunde (broadcasts) en las dimensiones especificadas

In [None]:
s = pd.Series([1,3,5,np.nan, 6 ,8], index=dates).shift(2)
display(s)

In [None]:
df.sub(s, axis='index')

## Iteration

In [None]:
df

In [None]:
for column in df.iteritems():
 print(type(column), len(column), column[0], type(column[1]))
 display(column[1])

In [None]:
for name,serie in df.iteritems():
 display(serie)

In [None]:
for row in df.iterrows():
 print(type(row), len(row), row[0], type(row[1]))
 display(row[1])

In [None]:
for frame in df.itertuples():
 print(type(frame), len(frame))
 display(frame)

## Apply

Aplicando funciones a los datos:

In [None]:
df

In [None]:
df.apply(np.cumsum)

In [None]:
df.apply(np.cumsum, axis=1)

In [None]:
df.apply(lambda x: x.max()-x.min())

In [None]:
df.apply(lambda x: x.max()-x.min(), axis=1)

In [None]:
df.applymap(lambda x: '%.2f' % x)

In [None]:
df['A'].map(lambda x: x**2)

## Histogramas

In [None]:
s = pd.Series(np.random.randint(0,7,size=100))
s

In [None]:
s.value_counts()

## Métodos strings

Las series están equipadas con un conjunto de métodos de procesamiento de strings, en el atributo 'str' que hace fácil de operar en cada elemento del arreglo, como en el código que sigue.

Notemos que el 'pattern-matching' en 'str' usa 'expresiones regulares' por defecto

In [None]:
s = pd.Series(['A','B','C','Aaba','Baca', np.nan, 'CABA', 'dog','cat'])
s

In [None]:
s.str.upper()

## Merge

### Concatenar

pandas provee varias facilidades para combinar juntos objetos Series, DataFrames y Panel con varios objetos de conjuntos lógicos para indexar y relacionar en el caso de operaciones tipo 'join/merge'

Concatenando objetos juntos con 'concat()'

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
display(df)

In [None]:
pieces = [df[7:], df[3:7], df[:3]]

In [None]:
pieces[0]

In [None]:
pieces[1]

In [None]:
pieces[2]

In [None]:
pd.concat?

In [None]:
pd.concat(pieces).sort_index()

In [None]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
dff = pd.concat([s1, s2])
dff

In [None]:
pd.concat([s1, s2], ignore_index=True)

In [None]:
pd.concat([s1, s2], keys=['s1', 's2',])

In [None]:
pd.concat([s1, s2], keys=['s1', 's2'], names=['Series name', 'Row ID'])

In [None]:
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']], columns=['letter', 'number', 'animal'])
df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']], columns=['animal', 'name'])
display(df1, df2, df3, df4)

In [None]:
pd.concat([df1, df2])

In [None]:
pd.concat([df1, df3])

In [None]:
pd.concat([df1, df3], join="inner")

In [None]:
pd.concat([df1, df4], axis=1)

In [None]:
df5 = pd.DataFrame([1], index=['a'])
df6 = pd.DataFrame([2], index=['a'])
display(df5, df6)

In [None]:
pd.concat([df5, df6])

In [None]:
pd.concat([df5, df6], verify_integrity=True)

### Juntando

Merge estilo SQL:

In [None]:
left = pd.DataFrame({'key': ['foo','foo'], 'lval': [1,2]})
right = pd.DataFrame({'key': ['foo','foo'], 'rval': [4,5]})
display(left)
display(right)

In [None]:
pd.merge(left, right, on='key')

In [None]:
pd.merge(left, right, on='key', how='right')

In [None]:
pd.merge(right, left, on='key')

Otro ejemplo que puede ser dado es:

In [None]:
left = pd.DataFrame({'key': ['foo', 'bar', 'foo', 'bar'], 'lval': [0, 1, 2, 3]})
right = pd.DataFrame({'key': ['foo', 'bar', 'bar'], 'rval': [4, 5, 6]})
display(left)
display(right)

In [None]:
pd.merge(left, right, on='key')

In [None]:
pd.merge(left, right, on='key', how='left')

Join estilo SQL

In [None]:
caller = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'], 
 'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})
caller

In [None]:
other = pd.DataFrame({'key': ['K0', 'K1', 'K2'], 
 'B': ['B0', 'B1', 'B2']})
other

In [None]:
caller.join(other, lsuffix='_caller', rsuffix='_other')

In [None]:
caller

In [None]:
caller.set_index('key')

In [None]:
caller.set_index('key').join(other.set_index('key'))

In [None]:
caller.join(other.set_index('key'), on='key')

### Adjuntando

Adjuntando filas a un dataframe

In [None]:
df = pd.DataFrame(np.random.randn(8,4), columns=['A','B','C','D'])
df

In [None]:
s = df.iloc[3]
s

In [None]:
df.append(s, ignore_index=True)

In [None]:
new = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
df.append(new, ignore_index=True)

### Agrupando

Por 'group by' nos referimos a un proceso que envuelve uno o más pasos.
- Dividiendo ('Splitting') los datos en grupos dado cierto criterio
- Aplicando ('Applying') una función a cada grupo independientemente.
- Combinando ('Combining') el resultado dentro de una estructura de datos

In [None]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
 'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
 'C' : np.random.randn(8),
 'D' : np.random.randn(8)})
df

Agrupando y después aplicando la función 'sum' a los grupos resultantes

In [None]:
df.groupby('A').sum()

Agrupando por multiples columnas forma un índice jerárquico, al cual se le aplica la función

In [None]:
df.groupby(['A','B']).sum()

## Reshaping

In [None]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
 'foo', 'foo', 'qux', 'qux'],
 ['one', 'two', 'one', 'two',
 'one', 'two', 'one', 'two']]))
tuples

In [None]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
index

In [None]:
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df

In [None]:
df.T

In [None]:
df2 = df[:4]
df2

El método 'stack()' comprime un nivel en las columnas del dataframe

In [None]:
stacked = df2.stack()
stacked

Con un dataframe 'stacked', la operación inversa de 'stack' es 'unstack', el cual por default desapila el último nivel:

In [None]:
stacked.unstack()

In [None]:
stacked.unstack(1)

In [None]:
stacked.unstack(0)

In [None]:
stacked.unstack([0,1])

## Pivoteando tablas

In [None]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
 'B' : ['A', 'B', 'C'] * 4,
 'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
 'D' : np.random.randn(12),
 'E' : np.random.randn(12)})
df

Se puede pivotear tables desde estos datos fácilmente:

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

melt corresponde a la operación inversa 

In [None]:
df

In [None]:
pd.melt(df)

In [None]:
pd.melt(df, id_vars=['A', 'B', 'C', 'D'], value_vars=['E'])

In [None]:
pd.melt(df, id_vars=['A', 'B', 'C'], value_vars=['D', 'E'])

## Series de tiempo

panda tiene un simple, poderoso y eficiente funcionalidad y desempeño al realizar operaciones de re-sampleo durante conversión de frecuencia (ejemplo, convirtiendo datos en segundos a datos cada 5 minutos). 

In [None]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts

In [None]:
ts.index[1:] - ts.index[:-1]

In [None]:
ts.plot()

In [None]:
aux= ts.resample('10s')
aux.sum()

Representación en zona de tiempo (Time zone)

In [None]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
ts = pd.Series(np.random.randn(len(rng)), rng)
display(ts)
ts_utc = ts.tz_localize('UTC')
ts_utc

Convirtiendo a otra zona horaria:

In [None]:
ts_utc.tz_convert('US/Eastern')

Convirtiendo entre representaciones de lapso de tiempo 

In [None]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
display(ts)
ps = ts.to_period()
display(ps)
ps.to_timestamp()

Convirtiendo entre periodos y lapsos de tiempo permite usar ciertas funciones aritméticas convenientes. EN el siguiente ejemplo, se convierte una frecuencia trimestral con fin de año en noviembre a las 9am de el fin del mes siguiendo el fin del trimestre.

In [None]:
prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')
ts = pd.Series(np.random.randn(len(prng)), prng)
ts

In [None]:
ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9
ts.head()

In [None]:
rng1 = pd.date_range('1/1/2012', periods=5, freq='S')
rng2 =pd.date_range('1/1/2012', periods=5, freq='M')

In [None]:
rng1

In [None]:
rng2

In [None]:
rng1 - rng2

## Categórico (Categorical)
Desde la versión 0.15 pandas incluye datos categoricos en DataFrame.

In [None]:
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})
df["raw_grade"]

Convirtiendo los grados en crudo a datos de tipo categórico

In [None]:
df["grade"] = df["raw_grade"].astype("category")
df["grade"]

Cambiar el nombre de las categorías a nombres con más sentido (asignar a 'series.cat.categories' está en su lugar!)

In [None]:
df["grade"].cat.categories = ["very good", "good", "very bad"]

In [None]:
df

Reordenar las categorias y simultáneamente añadir las categorías faltantes (métodos bajo 'Series.cat' devuelven una nueva 'serie' por default)

In [None]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df["grade"]

Al ordenar se hace por orden en las categorías, no por orden léxico:

In [None]:
df.sort_values(by="grade")

Agrupando por una columna categórica muestra también categorías vacías:

In [None]:
df.groupby("grade").size()

## Graficando

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))

ts = ts.cumsum()
ts.plot()
plt.show()

En un 'DataFrame', 'plot()' es una conveniencia para graficar todas las columnas con etiquetas: 

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
 columns=['A', 'B', 'C', 'D'])
df = df.cumsum()

df.plot()
plt.legend(loc='best')
plt.show()

In [None]:
df[['A','B']].plot()
plt.legend()

In [None]:
df.plot()

In [None]:
plt.plot(df)
plt.tight_layout()

## Obteniendo datos - Exportando datos

### CSV
Escribiendo un archivo CSV:

In [None]:
df.to_csv('nombrearchivo.csv')

Leyendo desde un archivo CSV:

In [None]:
pd.read_csv('nombrearchivo.csv', index_col=0)

### HDF5
Leyendo y escribiendo HDFStores:

Escribiendo en un HDF5:

In [None]:
df.to_hdf('nombrearchivo.h5','df')

Leyendo desde un HDF5:

In [None]:
pd.read_hdf('nombrearchivo.h5','df')

### Excel

Escribiendo un archivo Excel:


In [None]:
df.to_excel('foo.xlsx', sheet_name='Sheet1')

Leyendo un archivo Excel:

In [None]:
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

# Pandas Chapters

## Capítulo 1: leyendo datos desde un CSV

En este capítulo se leerán datos de un archivo CSV usando la función 'read_csv' de pandas. Por defecto, la función asume que los datos vienen separados por comas.

Vamos a mirar datos ciclistas de Montreal, y se pueden ver los datos usados en la página http://donnees.ville.montreal.qc.ca/dataset/velos-comptage

En este dataset se muestra cuánta gente estuvo en 7 diferentes ciclovias en Montreal, cada día.

In [None]:
## CHAPTER 1
%matplotlib inline

import pandas as pd

Intentamos leer la tabla:

In [None]:
broken_df = pd.read_csv('bikes.csv')
broken_df[:3]

Está roto el archivo, así que para arreglar el problema, se hará:
 - Cambiar el separador de columnas a ';'
 - Cambiar el encoding a 'latin1' (por defecto es 'utf8')
 - Asignar las fechas a la columna 'Dates'
 - Especificar que nuestras fechas tienen el día primero en vez del mes
 - Dejar el índice en las columnas 'Dates'

In [None]:
fixed_df = pd.read_csv('bikes.csv', sep=';', encoding='latin1', parse_dates=['Date'], dayfirst=True, index_col='Date')
fixed_df

### Seleccionando una columna

Cuando se lee un CSV se tiene un objeto que se denomina 'DataFrame', el cual está hecho de filas y columnas. Puedes obtener las columnas a partir del 'DataFrame' de la misma forma en la que se obtienen los elementos de un diccionario:

In [None]:
fixed_df['Berri 1']

### Graficando una columa

Sólo se debe añadir la función '.plot()' al final!

Así se ve, de una forma no sorprendente, que la gente no usa mucho la bicicleta durante Enero, Febrero y Marzo.

In [None]:
fixed_df['Berri 1'].plot()

También se pueden plotear todas las columnas igual de fácil, y se puede configurar para que la figura sea más grande. Al estar juntos se ven más apretados, pero todas las ciclovias tienen la misma estructura. Si es un mal día para un ciclista, es un mal día en todas partes.

In [None]:
fixed_df.plot(figsize=(15,10))

## Capítulo 2: 

Usaremos un nuevo conjunto de datos para demostrar cómo trabajar con grandes dataset. Este corresponde a un subconjunto de las peticiones de servicio del 311, obtenidos desde NYC Open Data (https://nycopendata.socrata.com/Social-Services/311-Service-Requests-from-2010-to-Present/erm2-nwe9)

In [None]:
import pandas as pd
from IPython.display import display

# Make the graphs a bit prettier, and bigger
pd.set_option('display.width', 5000) 
pd.set_option('display.max_columns', 60) 

In [None]:
complaints = pd.read_csv('311-service-requests.csv')

### Qué hay en ella? (el resumen)

Cuando se mira un gran dataframe, en vez de mostrar el contenido del dataframe, se mostrará un resumen (summary). Este incluye todas las columas y cuántos valores no nulos están en cada columna

¿SI?

In [None]:
complaints

### Seleccionando filas y columnas

Para seleccionar una columna, se indexa con el nombre de la columna, como sigue:


In [None]:
complaints['Complaint Type']

Para obtener las 5 primeras columas, podemos usar una tajada como 'df[:5].
Esta es una gran manera para tener un sentido de qué tipo de información está en el 'dataframe'. 

In [None]:
complaints[:5]

Y se puede combinar para obtener las cinco primeras filas de una columna

In [None]:
complaints['Complaint Type'][:5]

Y no importa en qué orden se realiza:

In [None]:
complaints[:5]['Complaint Type']

### Seleccionando multiples columnas

Qué si queremos saber el tipo de queja (complaint) y la ciudad (borough), pero no el resto de la información?
Pandas hace esto realmente fácil al seleccionar un subconjunto de columnas, sólo se indexa con una lista de las columnas que se quieren:


In [None]:
complaints[['Complaint Type', 'Borough']]

### Cuál es la queja más común?

Esta es una pregunta realmente fácil de resolver. Hay una método '.value_counts()' que podemos usar:

In [None]:
complaints['Complaint Type'].value_counts()

Y si solo queremos el top 10 de las quejas más comunes:


In [None]:
complaint_counts = complaints['Complaint Type'].value_counts()
complaint_counts[:10]

Y podemos graficarlos!!

In [None]:
complaint_counts[:10].plot(kind='bar', figsize=(15,10))

## Capitulo 3

Continuaremos con el dataframe usado en el capítulo anterior

### Seleccionando sólo las quejas por ruido (noise complaints)

Se quiere saber qué ciudad (borough) tiene más quejas por ruido. En primer lugar, vamos a tomar una mirada de la data para ver cómo se ve

In [None]:
complaints[:5]

Para obtener las quejas por ruido, necesitamos encontrar las filas donde la columna 'Complaint type' es 'Noise - Street/Sidewalk'. Vamos a ver cómo hacer eso en el ejemplo que sigue:

In [None]:
noise_complaints = complaints[complaints['Complaint Type'] == 'Noise - Street/Sidewalk']
noise_complaints[:5]

Si se mira a 'noise_complaints' se ve que funcionó y que sólo contiene quejas de ese tipo. Pero cómo funciona?

Vamos a deconstuirlo en dos partes:

In [None]:
complaints['Complaint Type'] == "Noise - Street/Sidewalk"

Este es un gran arreglo de Trues y Falses, uno por cada fila de nuestro dataframe. Cuando nosotros indexamos este dataframe con este arreglo, se obtienen solo las columnas donde hay Trues.

Se puede también combinar una o más condiciones usando el operador '&' como sigue:

In [None]:
# Combinando más de una condición
is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
in_brooklyn = complaints['Borough'] == "BROOKLYN"
complaints[is_noise & in_brooklyn][:5]

O si solo se quieren unas pocas columnas:

In [None]:
complaints[is_noise & in_brooklyn][['Complaint Type', 'Borough', 'Created Date', 'Descriptor']][:10]

### Una desviación con respecto a los arreglos de Numpy

Por otro lado, para pandas una columna es del tipo 'pd.Series'

In [None]:
pd.Series([1,2,3])

E internamente las series de pandas son arreglos de Numpy. Si se añade '.values' al final de cualquier 'Serie', se obtiene el arreglo de numpy interno

In [None]:
import numpy as np
np.array([1,2,3])

In [None]:
pd.Series([1,2,3]).values

Entonces, esta selección de arreglos binarios es actualmente algo que funciona con cualquier arreglo Numpy

In [None]:
arr = np.array([1,2,3])
arr != 2

In [None]:
arr[arr!=2]

### Entonces, qué ciudad tiene la mayor cantidad de quejas por ruido?


In [None]:
is_noise = complaints['Complaint Type'] == 'Noise - Street/Sidewalk'
noise_complaints = complaints[is_noise]
noise_complaints['Borough'].value_counts()

Es Manhattan! pero qué si lo que queremos es dividir por el total de quejas para hacer que tenga un poco más de sentido? Eso podría ser fácil también:

In [None]:
noise_complaints_counts = noise_complaints['Borough'].value_counts()
complaint_counts = complaints['Borough'].value_counts()
noise_complaints_counts/complaint_counts

Y graficando:

In [None]:
(noise_complaints_counts / complaint_counts).plot(kind='bar')

Es evidente que Manhattan tiene la mayor cantidad de quejas que otros vecindarios.

## Capítulo 4


In [None]:
bikes = pd.read_csv('bikes.csv', sep=';', encoding='latin1', parse_dates=['Date'], dayfirst=True, index_col='Date')
display(bikes)

In [None]:
bikes['Berri 1'].plot()

In [None]:
berri_bikes = bikes[['Berri 1']]
berri_bikes2 = bikes['Berri 1']
display(berri_bikes)
display(berri_bikes2)

In [None]:
display(berri_bikes.index.day)
berri_bikes.index.weekday

In [None]:
berri_bikes['weekday']=berri_bikes.index.weekday
berri_bikes[:5]

In [None]:
berri_bikes.loc[:,1]=berri_bikes.index.weekday
berri_bikes

In [None]:
berri_bikes = berri_bikes.drop([1], axis=1) #berri_bikes.drop([1], axis=1, inplace=True)
display(berri_bikes)

In [None]:
berri_bikes.drop(['weekday'], axis=1)

In [None]:
berri_bikes

In [None]:
weekday_count = berri_bikes.groupby('weekday').aggregate(sum)
weekday_count.index = ['M','T','W','T','F','S','S']
weekday_count

In [None]:
weekday_count.plot(kind='bar')

## Capítulo 5

Ya hemos visto que Pandas se maneja bien con fechas, y también es asombroso trabajando con strings!
Vamos a trabajar con datos climáticos de Montreal en invierno (sí, es frío!!).
Panda tiene todas las operaciones vectorizadas de strings, y vamos a transformar un montón de strings que contienen la palabra 'snow' en vectores de números en un trice.

In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt
from IPython.display import display

Cargamos los datos

In [None]:
# chapter 6

weather_2012 = pd.read_csv('weather_2012.csv', parse_dates=True, index_col='Date/Time')
weather_2012[:5]

### Operaciones strings

Se verá que la columna 'Weather' tiene una descripción en texto del clima que estaba ocurriendo en cada hora. Vamos a asumir que está nevando si la descripción contiene 'snow'

pandas provee funciones strings vectorizadas, para hacer fácil el operar en columnas que contienen texto. Hay muchos ejemplos en la documentación http://pandas.pydata.org/pandas-docs/stable/basics.html#vectorized-string-methods

In [None]:
weather_description = weather_2012['Weather']
is_snowing = weather_description.str.contains('Snow')
is_snowing

No es muy útil, ya que es un vector binario y no es fácil mirarlo

In [None]:
# No muy útil
is_snowing.head() 

In [None]:
is_snowing.plot(style='ro', figsize=(15,10))

In [None]:
is_snowing.astype(int).plot(style='ro', ms=0.5, figsize=(15,10))

### Usando resample para encontrar el mes más nevoso

Si queremos que la temperatura media de cada mes, podemos usar el método 'resample()' de la siguiente forma:

In [None]:
weather_2012['Temp (C)'].resample('M', how=np.median).plot(kind='bar', figsize=(15,10))

Como era de esperarse, Julio y Agosto son los más calientitos (hemisferio norte!!)

Entonces podemos pensar en lo nevoso como un montón de 1s y 0s en vez de 'Trues' y 'Falses':

In [None]:
is_snowing.astype(float)[:10]

Y entonces usar 'resample' para encontrar el porcentaje de tiempo que estuvo nevando en cada mes

In [None]:
is_snowing.astype(float).resample('M', how=np.mean)

In [None]:
is_snowing.astype(float).resample('M', how=np.sum).plot(kind='bar')

Ahora sabemos! En diciembre del 2012 fue el mes más nevoso. También, este gráfico sufiere que la nieve empieza abrupta en noviembre, y se desvanece lentamente en un largo tiempo, con las últimas nieves en Abril o Mayo.

### Ploteando temperatura y nevosidad juntas

También se poueden combinar los dos estadíticos (temperatura y nieve) dentro del dataframe y plotearlas juntas

In [None]:
temperature = weather_2012['Temp (C)'].resample('M', how=np.median)
is_snowing = weather_2012['Weather'].str.contains('Snow')
snowiness = is_snowing.astype(float).resample('M', how=np.mean)

In [None]:
# Nombramos las columnas
temperature.name = 'Temperature'
snowiness.name = 'Snowiness'

Vamos a usar 'concat' nuevamente para combinar los dos estadísticos dentro de un solo dataframe:

In [None]:
stats = pd.concat([temperature, snowiness],axis=1)
stats

In [None]:
stats.plot(kind='bar', figsize=(15,10))

Lo que no funcuiona tan bien porque las escalas están mal. Para solucionar esto, lo plotearemos en dos gráficos separados:

In [None]:
stats.plot(kind='bar',subplots=True,figsize=(15,10))

## Capítulo 6

### Limpiando datos sucios nunca es un juego, pero con pandas es más fácil

Uno de los problemas principales con datos sucios es: cómo sabes si está sucio o si no lo está.

Vamos a usar el conjunto de datos de solicitudes del servicio NYC 311, dado que es grande y pesado

In [None]:
# CHAPTER 7
import pandas as pd

# Make the graphs a bit prettier, and bigger
# Always display all the columns
pd.set_option('display.width', 5000) 
pd.set_option('display.max_columns', 60) 



In [None]:
requests = pd.read_csv('311-service-requests.csv')

Vamos a mirar unas pocas columnas aquí. Ya se sabe desde antes que hay algunos problemas con el 'zip code', así que vamos a mirarlo al principio.

Para tener un sentido de cuándo una columna tiene problemas, se puede usar '.unique()' para mirar todos sus valores. Si es una columna numérica, se mostrará entonces un histograma para obtener un sentido de la distribución.

Cuando se mira a los valores únicos en 'Incident Zip', se vuelve claro rápidamente que es un desastre.

Algunos de los problemas:
 - Algunos han sido asignados como strings, otros como floats
 - Hay algunos nans
 - Algunos de los codigos zip son 29616-0759 o 83
 - Hay algunos valores N/A que pandas no los reconoce, como 'N/A' y 'NO CLUE'
 
Qué podemos hacer:
 - Normalizar 'N/A' y 'NO CLUE' en valores nan regulares
 - Mirar qué pasa con el 83 y decidir qué hacer
 - Convertir todo a string.

In [None]:
requests

In [None]:
requests['Incident Zip'].unique()

In [None]:
requests.duplicated('Incident Zip')

In [None]:
requests.drop_duplicates('Incident Zip', keep='last')

### Fijando los valores nan y solucionando la confusión string/float

Vamos a pasarle la opción 'na_values' a 'pd.read_csv' para limpiar esto un poquito. También podemos especificar que el tipo 'Incident Zip' es un string, no un float.

In [None]:
na_values = ['NO CLUE', 'N/A', '0']
requests = pd.read_csv('311-service-requests.csv', na_values=na_values, dtype={'Incident Zip': str})
requests['Incident Zip'].unique()

### Qué sucede con los guiones?

In [None]:
requests[requests['Incident Zip'].str.contains('-').fillna(False)]['Incident Zip']

In [None]:
rows_with_dashes = requests['Incident Zip'].str.contains('-').fillna(False)
len(requests[rows_with_dashes])

In [None]:
requests[rows_with_dashes]

Una posible forma de borrar los datos faltantes podría ser de la forma:

'requests['Incident Zip'][rows_with_dashes] = np.nan'

Pero resulta que los códigos zips con 9 dígitos es normal. Vamos a mirar los códigos zip de más de 5 dígitos, para ver que están ok, y después truncarlos

In [None]:
long_zip_codes = requests['Incident Zip'].str.len()>5
requests['Incident Zip'][long_zip_codes].unique()

Los cuales lucen adecuados para truncarlos

In [None]:
requests['Incident Zip'] = requests['Incident Zip'].str.slice(0,5)

Hecho.

Aún preocupa la presencia de los códigos de la forma '00000', así que los miraremos

In [None]:
requests[requests['Incident Zip'] == '00000']

Lo cual luce mal, vamos a setear estos zip como nan

In [None]:
zero_zips = requests['Incident Zip']=='00000'
requests['Incident Zip'][zero_zips] = np.nan

Y podemos ver qué hay ahora

In [None]:
unique_zips = requests['Incident Zip'].unique()
unique_zips.astype(float).sort()
unique_zips

Genial!

Esto es mucho más claro. Hay, sin embargo, algo un poco extraño. Después de mirar el código '77056' en googlemaps, está en texas, así que vamos a mirar más cerca:

In [None]:
zips = requests['Incident Zip']
is_close = zips.str.startswith('0') | zips.str.startswith('1')
is_far = ~(is_close.fillna(True).astype(bool))
zips[is_far]

In [None]:
requests[is_far][['Incident Zip', 'Descriptor', 'City']].sort_values('Incident Zip')

Okey, hay solicitudes que vienen desde LA y Houston! Bien saberlo. Filtrando por zipcode es probablemente una mala forma de manejar esto, deberíamos mejor mirar la ciudad en vez.

In [None]:
requests['City'].str.upper().value_counts()

Luce como que hay quejas que son válidas, así que las dejaremos solas.

### Poniendo todo junto

In [None]:
na_values = ['NO CLUE', 'N/A', '0']
requests = pd.read_csv('311-service-requests.csv', 
 na_values=na_values, 
 dtype={'Incident Zip': str})
def fix_zip_codes(zips):
 # Truncate everything to length 5 
 zips = zips.str.slice(0, 5)
 
 # Set 00000 zip codes to nan
 zero_zips = zips == '00000'
 zips[zero_zips] = np.nan
 
 return zips

In [None]:
requests['Incident Zip'] = fix_zip_codes(requests['Incident Zip'])

In [None]:
requests['Incident Zip'].unique()

## Capítulo 7

### Analizando UNIX timestamps

No es obio cómo lidiar con Unix timestamps en pandas.

El archivo que usaremos es un popular archivo popular para concursos, el cual está en el sistema en
'/var/log/popularity-contest'.


In [None]:
# CHAPTER 8

popcon = pd.read_csv('popularity-contest', sep=' ', )[:-1]
display(popcon[:5])
popcon.columns = ['atime', 'ctime', 'package-name', 'mru-program', 'tag']
popcon[:5]

In [None]:
popcon.atime

La parte máfica acerca de analizar timestamps en pandas es que los datetimes de numpy ya están guardados como Unix timestamps. Entonces todo lo que necesitamos es decirle a pandas que esos números enteros son actualmente fechas, y no se necesita hacer ninguna conversión.

Vamos a convertir estos 'ints' para empezar:

In [None]:
popcon['atime'] = popcon['atime'].astype(int)
popcon['ctime'] = popcon['ctime'].astype(int)

In [None]:
popcon['atime'] 

Cada arreglo numpy y serie de pandas tiene un 'dtype' -- el cual es usual 'int64', 'float64' o 'object'. Algunos de los tipos de tiempo disponibles son 'datetime64[s]', 'datetime64[ms]' y 'datetime64[us]'. Hay también tipos 'timedelta', similarmente.

Podemos usar la función 'pd.to_datetime' para convertir los números enteros en fechas. Esto es una operación a tiempo constante, es decir, no estamos cambiando ninguno de los datos, sólo cómo pandas piensa acerca de él.

In [None]:
popcon['atime'] = pd.to_datetime(popcon['atime'], unit='s')
popcon['ctime'] = pd.to_datetime(popcon['ctime'], unit='s')

Si miramos al 'dtype' ahora, es ''1970-01-01'] #Se eliminan las fechas con timestamp 0

In [None]:
popcon

Ahora podemos usar las habilidades mágicas de pandas sobre strings para mirar a las colimnas donde el nombre del paquete no contiene 'lib'.

In [None]:
nonlibraries = popcon[~popcon['package-name'].str.contains('lib')]

In [None]:
nonlibraries

In [None]:
nonlibraries.sort_values('ctime',ascending=False)[:10]