Analizando Datos de Covid-19 mediante Data Science (Ciencia de Datos) – Parte 2 (Final)
Demo Github
Vamos a continuar con la parte anterior llamada Analizando Datos de Covid-19 mediante Data Science (Ciencia de Datos) – Parte 1 en donde explicamos los datos del archivo JSON y los dejamos preparados para hacer el análisis de los casos con Covid-19 en el país de Italia, en esta 2da y última parte haremos el análisis de determinados cifras de casos producidos en el país Europeo.
Partes
- Parte 1
- Parte 2 (Final: Demo y GitHub)
Antes de continuar con este Post, te invito a leer los siguientes artículos:
- Que es la Ciencia de Datos (Data Science)
- 5 Proyectos Open Source que te ayudarán a mejorar tus habilidades en Data Science (Ciencia de Datos)
- Errores que impiden hacer uso de las mejores prácticas de la Ciencia de Datos (Data Science)
- Como hacer Análisis a los productos de una Tienda de Postres mediante Data Science – Parte 1
Asimismo te invito a escuchar el Podcast: “Dominio del trabajo con Varios Lenguajes de Programación”:
Bien ahora continuemos con el Post: Analizando Datos de Covid-19 mediante Data Science (Ciencia de Datos) – Parte 2 (Final).
Analizando los datos de casos Covid-19
Bien en este punto ya podemos analizar los datos que deseemos, yo me enfocaré en 3 datos que me parecen interesantes:
- Fecha en que el País (Italia) supero más de 100 casos de muertes por Covid-19
- Fecha en que el País (Italia) supero más 1000 casos de muertes por Covid-19
- Fecha en que el País (Italia) supero más 10,000 casos de muertes por Covid-19
Puedes ver que me enfocó en los casos de muertes, es decir trabajaré con la columna Muertes de la tabla de datos, entonces vamos con el análisis de los datos mencionados.
Fecha en que el País (Italia) supero más de 100 casos muertes por Covid-19
Para hacer una comparación crearé una variable llamada cantidad1, luego comparo si la columna Muertes es igual a la variable cantidad1. Imprimo el texto Día: en negrita y uso el método iloc de Pandas para seleccionar la primera fila de la tabla.
Ya que selecciono el día en que Italia supero más de 100 muertes por Covid-19, el primer valor de la tabla entonces es 0, entonces la paso rs.iloc[0]
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
# Declaro la cantidad de muertes que quiero seleccionar cantidad1 = 100 # Comparo si la columna 'Muertes' es igual o mayor al valor de la variable 'cantidad rs = datos.loc[datos['Muertes'] >= cantidad1] # Color de texto negrita class color: txt_negrita = '\033[1m' # Imprimo el texto 'Día' print(color.txt_negrita + 'Día:') # Imprimo el día en que el País supero más de 100 muertes dia = rs.iloc[0] dia |
Presiono el botón Run y obtengo el día en que el País (Italia) supero más de 100 casos de muertes por Covid-19
En la imagen anterior obtengo la Fecha 04-03-2020, el cual es el día en que Italia supero más de 100 casos de muertes por Covid-19, junto con los demás datos.
Ahora para ver mejor los datos, voy a imprimir un gráfico de barras en donde (En el código he colocado comentarios para explicar que hace cada porción del código)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
# Importamos la librería 'matplotlib.pyplot' para crear gráficos y la librería 'numpy' que agrega mayor soporte para vectores y matrices import matplotlib.pyplot as plt; plt.rcdefaults() import numpy as np import matplotlib.pyplot as plt # Tamaño del gráfico plt.rcParams["figure.figsize"] = 20,11 # Defino los campos del gráfico fechas = rs['Fecha'] posisicion_y = np.arange(len(fechas)) muertes = rs['Muertes'] # Formateo los elementos del gráfico plt.bar(posisicion_y, muertes, align='center', alpha=0.5) plt.xticks(posisicion_y, fechas) plt.xticks(fontsize=16, rotation='vertical') plt.yticks(fontsize=16) # Defino el título y las etiquetas (labels) del gráfico plt.title('Fecha en que el País supero + 100 muertes por Covid-19', fontsize=24, pad=25) plt.suptitle('Día: ' + dia[1], x=0.28, y=0.52, fontsize=23, color="green") #Imprimo el día con letras verdes plt.xlabel('Fecha', fontsize=20, labelpad=25) plt.ylabel('Nro. Muertes', fontsize=20, labelpad=25) # Imprimo el gráfico plt.show() |
Presiono el botón Run y obtengo un gráfico de barras en donde podemos ver cual es el día en que Italia supero más de 100 casos de muertes por Covid-19 (En el gráfico imprimo el día con letras verdes usando plt.suptitle)
Fecha en que el País (Italia) supero más de 1000 casos muertes por Covid-19
Para este segundo caso de datos solo cambiaré el valor a 1000 en la variable cantidad2 y realizaré los mismos pasos que hice anteriormente (En el código he colocado comentarios para explicar que hace cada porción del código)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
# Declaro la cantidad de muertes que quiero seleccionar cantidad2 = 1000 # Comparo si la columna 'Muertes' es igual o mayor al valor de la variable 'cantidad rs = datos.loc[datos['Muertes'] >= cantidad2] # Color de texto negrita class color: txt_negrita = '\033[1m' # Imprimo el texto 'Día' print(color.txt_negrita + 'Día:') # Imprimo el día en que el País supero más de 1000 muertes dia = rs.iloc[0] dia |
Presiono el botón Run y obtengo el día en que el País (Italia) supero más de 1000 casos de muertes por Covid-19
En la imagen anterior obtengo la Fecha 13-03-2020, el cual es el día en que Italia supero más de 1000 casos de muertes por Covid-19, junto con los demás datos.
Ahora para ver mejor los datos, voy a imprimir un gráfico de barras en donde (En el código he colocado comentarios para explicar que hace cada porción del código)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
# Importamos la librería 'matplotlib.pyplot' para crear gráficos y la librería 'numpy' que agrega mayor soporte para vectores y matrices import matplotlib.pyplot as plt; plt.rcdefaults() import numpy as np import matplotlib.pyplot as plt # Tamaño del gráfico plt.rcParams["figure.figsize"] = 20,11 # Defino los campos del gráfico fechas = rs['Fecha'] posisicion_y = np.arange(len(fechas)) muertes = rs['Muertes'] # Formateo los elementos del gráfico plt.bar(posisicion_y, muertes, align='center', alpha=0.5) plt.xticks(posisicion_y, fechas) plt.xticks(fontsize=16, rotation='vertical') plt.yticks(fontsize=16) # Defino el título y las etiquetas (labels) del gráfico plt.title('Fecha en que el País supero + 1000 muertes por Covid-19', fontsize=24, pad=25) plt.suptitle('Día: ' + dia[1], x=0.28, y=0.52, fontsize=23, color="green") #Imprimo el día con letras verdes plt.xlabel('Fecha', fontsize=20, labelpad=25) plt.ylabel('Nro. Muertes', fontsize=20, labelpad=25) # Imprimo el gráfico plt.show() |
Presiono el botón Run y obtengo un gráfico de barras en donde podemos ver cual es el día en que Italia supero más de 100 casos de muertes por Covid-19 (En el gráfico imprimo el día con letras verdes usando plt.suptitle)
Fecha en que el País (Italia) supero más de 10,000 casos muertes por Covid-19
Para este segundo caso de datos solo cambiaré el valor a 10,000 en la variable cantidad3 y realizaré los mismos pasos que hice anteriormente (En el código he colocado comentarios para explicar que hace cada porción del código)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
# Declaro la cantidad de muertes que quiero seleccionar cantidad3 = 10000 # Comparo si la columna 'Muertes' es igual o mayor al valor de la variable 'cantidad rs = datos.loc[datos['Muertes'] >= cantidad3] # Color de texto negrita class color: txt_negrita = '\033[1m' # Imprimo el texto 'Día' print(color.txt_negrita + 'Día:') # Imprimo el día en que el País supero más de 10,000 muertes dia = rs.iloc[0] dia |
Presiono el botón Run y obtengo el día en que el País (Italia) supero más de 10,000 casos de muertes por Covid-19
En la imagen anterior obtengo la Fecha 28-03-2020, el cual es el día en que Italia supero más de 10.000 casos de muertes por Covid-19, junto con los demás datos.
Ahora para ver mejor los datos, voy a imprimir un gráfico de barras en donde (En el código he colocado comentarios para explicar que hace cada porción del código)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
# Importamos la librería 'matplotlib.pyplot' para crear gráficos y la librería 'numpy' que agrega mayor soporte para vectores y matrices import matplotlib.pyplot as plt; plt.rcdefaults() import numpy as np import matplotlib.pyplot as plt # Tamaño del gráfico plt.rcParams["figure.figsize"] = 20,11 # Defino los campos del gráfico fechas = rs['Fecha'] posisicion_y = np.arange(len(fechas)) muertes = rs['Muertes'] # Formateo los elementos del gráfico plt.bar(posisicion_y, muertes, align='center', alpha=0.5) plt.xticks(posisicion_y, fechas) plt.xticks(fontsize=16, rotation='vertical') plt.yticks(fontsize=16) # Defino el título y las etiquetas (labels) del gráfico plt.title('Fecha en que el País supero + 10,000 muertes por Covid-19', fontsize=24, pad=25) plt.suptitle('Día: ' + dia[1], x=0.28, y=0.67, fontsize=23, color="green") #Imprimo el día con letras verdes plt.xlabel('Fecha', fontsize=20, labelpad=25) plt.ylabel('Nro. Muertes', fontsize=20, labelpad=25) # Imprimo el gráfico plt.show() |
Presiono el botón Run y obtengo un gráfico de barras en donde podemos ver cual es el día en que Italia supero más de 10,000 casos de muertes por Covid-19 (En el gráfico imprimo el día con letras verdes usando plt.suptitle)
Reporte
Bueno ahora tenemos el siguiente reporte.
Fecha en que el País (Italia):
- Supero más de 100 casos de muertes por Covid-19: 04-03-2020
- Supero más de 1000 casos de muertes por Covid-19: 13-03-2020
- Supero más de 10,000 casos de muertes por Covid-19: 28-03-2020
Teniendo esta información se puede llevar acabo determinadas tomas de decisiones.
Conclusión
Si tienes a la mano determinados datos, no solo del Covid-19, puedes obtener diferentes datos estadísticos, yo he analizado 3 tipos de datos en este Tutorial y podría analizar otros tipos de datos si es que deseo.
Nota(s)
- El código Python usado en este Post, puede quedar obsoleto, ser modificado o continuar vigente, esto no depende de mi, si no de los desarrolladores que dan soporte a Python, Pandas y Jupyter Notebook.
- No olvides que debemos usar la Tecnología para hacer cosas Buenas por el Mundo.
Síguenos en nuestras Redes Sociales para que no te pierdas nuestros próximos contenidos.
- Data Science (Ciencia de Datos) Tutoriales
- 04-05-2020
- 18-05-2020
- Crear un Post - Eventos Devs - Foro
Social
Redes Sociales (Developers)
Redes Sociales (Digital)