Analizando Datos de Covid-19 mediante Data Science (Ciencia de Datos) – Parte 1
Demo
En estas fechas en que escribo este Post, los países del mundo atraviesan por la pandemia del Covid-19 (Coronavirus), muchas organizaciones están compartiendo datos sobre las personas que padecen este virus en cada País, los casos se clasifican en casos confirmados, casos de muertes y casos de personas recuperadas.
Partes
- Parte 1
- Parte 2 (Final: Demo y GitHub)
Antes de continuar con este Post, te invito a leer los siguientes artículos:
- Que es la Ciencia de Datos (Data Science)
- 5 Proyectos Open Source que te ayudarán a mejorar tus habilidades en Data Science (Ciencia de Datos)
- Errores que impiden hacer uso de las mejores prácticas de la Ciencia de Datos (Data Science)
- Como hacer Análisis a los productos de una Tienda de Postres mediante Data Science – Parte 1
Asimismo te invito a escuchar el Podcast: “Que Hacer Cuando Estamos En Casa”:
Bien ahora continuemos con el Post: Analizando Datos de Covid-19 mediante Data Science (Ciencia de Datos) – Parte 1.
Podemos manipular los datos de casos de Covid-19 para obtener determinados datos que deseemos, esa es la magia de la Ciencia de Datos.
Datos de Covid-19
Los datos que analizaré pertenecen al Center for Systems Science and Engineering (CSSE) de la Universidad Johns Hopkins (USA), estos han sido convertidos a formato JSON en el siguiente repositorio GitHub y podemos acceder directamente al archivo JSON en este enlace. Existen varias organizaciones que ofrecen diferentes datos en formato JSON y otros formatos más, los cuales podemos analizar.
Pero los datos del JSON que analizaré me brindan los siguientes campos: date, confirmed, deaths y recovered, de varios países del mundo, por ejemplo a continuación, datos del país Italia, en sus primeros días aún no tenia casos por Covid-19 (Veremos mas adelante como fueron en aumento los casos en este País, conforme vayamos haciendo el análisis):
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
{ "Italy": [ { "date": "2020-1-22", "confirmed": 0, "deaths": 0, "recovered": 0 }, { "date": "2020-1-23", "confirmed": 0, "deaths": 0, "recovered": 0 } ] } |
NOTA: Los datos que analizaré, son actuales hasta el día 24-04-2020, si tu descargas los datos JSON, obtendrás datos recientes de nuevos casos de Covid-19.
Veamos que significa cada dato del archivo JSON:
date
La fecha en que se produjeron los casos por Covid-19
confirmed
La cantidad de casos confirmados por Covid-19
deaths
La cantidad de muertes por Covid-19
recovered
La cantidad de casos de personas recuperadas por Covid-19
Preparando los datos de casos Covid-19
Primero descargo los datos alojados en forma JSON desde este enlace (Este enlace puede dejar de existir, esto no depende de mi, si no de la Organización que da soporte a estos datos), lo guardo en mi computadora con el nombre covid.json
Existen varias herramientas para analizar datos, yo usaré la herramienta Jupyter Notebook 5.7.8 que viene dentro de la herramienta Anaconda Navigator, en el Tutorial Como hacer Análisis a los productos de una Tienda de Postres mediante Data Science – Parte 1 explico como instalar Anaconda Navigator.
También necesitas tener instalado Python y en el Post Que es Python y otros Detalles, explico como usar e instalar Python, yo estoy usando Python 3.7 para este tutorial.
Bien pasemos a la acción, lo primero que haré es crear un nuevo Archivo con el Lenguaje de Programación Python 3 en Jupyter Notebook.
Lo primero que haré en mi nuevo archivo es importar la librería Pandas
1 2 3 4 5 |
#Importamos la librería panda y lo abreviamos como 'pd' import pandas import pandas as pd |
Luego leo el archivo covid.json que contiene los datos de casos a analizar
1 2 3 4 |
# Leemos el archivo json con los datos de casos Covid-19 datoscovid = pandas.read_json("covid.json", typ='series', orient="index", encoding="utf-8") |
En mi archivo JSON hay datos de varios países, yo seleccionaré Italia, luego formateo la fecha al campo date en formato d-m-Y (día – mes – año) e imprimo los datos para verificar si todo esta correcto
1 2 3 4 5 6 7 8 9 10 11 12 13 |
# Seleccionamos el País datos = pd.DataFrame( datoscovid['Italy']) # Formateamos la fecha datos['date'] = pd.to_datetime(datos['date']) ff = datos['date'].dt.strftime('%d-%m-%Y') datos['date'] = ff # Imprimo los datos datos |
Presiono el botón Run y obtengo una lista con los datos de casos de Covid-19 del país Italia:
La tabla muestra campos en inglés, vamos a darle un mejor aspecto asignándole nuevos nombres de columna en español, estas nuevas columnas serán Confirmados, Fecha, Muertes y Recuperados.
1 2 3 4 5 6 |
# Cambio el nombre de las columnas para mejorar su aspecto datos.columns = ['Confirmados', 'Fecha', 'Muertes', 'Recuperados'] datos |
Presiono el botón Run para ejecutar el código y verificar que la tabla tiene los nuevos nombres de columnas establecidos.
Con esto ya podemos empezar a trabajar con el análisis de los datos.
Ten Paciencia, lo que quiero es que entiendas todo el proceso de como funciona el análisis de los Datos de Covid-19 mediante Data Science (Ciencia de Datos).
Nota(s)
- El código Python usado en este Post, puede quedar obsoleto, ser modificado o continuar vigente, esto no depende de mi, si no de los desarrolladores que dan soporte a Python, Pandas y Jupyter Notebook.
- No olvides que debemos usar la Tecnología para hacer cosas Buenas por el Mundo.
Síguenos en nuestras Redes Sociales para que no te pierdas nuestros próximos contenidos.
- Data Science (Ciencia de Datos) Tutoriales
- 25-04-2020
- 30-03-2021
- Crear un Post - Eventos Devs - Foro
Social
Redes Sociales (Developers)
Redes Sociales (Digital)