Como hacer Análisis a los productos de una Tienda de Postres mediante Data Science – Parte 7

Continuando con el Capitulo Anterior llamado Como hacer Análisis a los productos de una Tienda de Postres mediante Data Science – Parte 6, en este nuevo Capitulo Nro 7 empezaré filtrando los primeros Datos que deseo consultar de mi archivo ventas.json, así inicio con la parte importante de este Tutorial, el juego de la Ciencia de Datos, vamos con este Capitulo.

Partes

Haciendo Data Science (Ciencia de Datos)

Con la librería Pandas puedo llevar acabo el análisis de mis Datos dentro de Jupyter Notebook con el Lenguaje de Programación Python

En Jupyter Notebook importo la librería Pandas de 2 maneras, uno como librería principal y en la otra la convierto a la variable pd para poder usarla más adelante.

Dentro de cada caja de texto de Jupyter Notebook puedo escribir código Python y para que se ejecute el código que he escrito debo presionar el botón Run que se encuentra en la parte de arriba

Por ejemplo escribo e importo la librería Pandas de la siguiente manera y presiono el botón Run para que se ejecute las 2 líneas y cuando termine de ejecutarse el código, el cursor salta a la siguiente caja de Texto en donde puedo continuar escribiendo código Python

En el código seria así:

Carga de Datos

Lo siguiente que haré es leer el archivo ventas.json que contiene los datos que quiero analizar, creo la variable ventas en donde mediante el método pandas.read_json hago una lectura del archivo ventas.json, luego le agrego el parámetro orient=”split” formateo los datos del archivo JSON y por ultimo le agrego la codificación con el parámetro encoding=”utf-8″ (Si no le agregamos el parámetro encoding=”utf-8″) nuestros datos no se visualizarán correctamente

Paso seguido crea una nueva variable llamada datos, dentro de esta variable usaré el método DataFrame de Pandas para crear la estructura de Datos con las Ventas almacenadas en el archivo ventas.json, dentro del método DataFrame paso la variable ventas y añado el parámetro columns en donde especifico las columnas que tiene mi archivo ventas.json

Estas columnas como puedes ver en la estructura del archivo JSON son id, producto, cliente, dni, fnacimientocliente, precio, img, created_atupdated_at

Al final escribo la variable datos para que se impriman los datos en una tabla

Entonces debería de mostrarse los datos del archivos ventas.json en una tabla

Jugando con los Datos (Haciendo Ciencia de Datos)

En el capitulo 2 mencione los datos que iba analizar del sistema de ventas de la tienda de Postres, puedes revisarlo en la Parte 2

Datos Ventas Generales: (Ventas Generales por la Mañana 9AM – 12PM)

Para esto haré uso de la columna created_at que es la fecha de una determinada Venta registrada en el Sistema de Ventas de Postres, lo primero que haré es convertir con el método pandas.to_datetime a fechas  los datos almacenados en la columna created_at

Luego crearé un Rango de tiempo, como quiero obtener los datos de Ventas Generales por la Mañana de 9AM a 12PM, pues creare 2 variables una llamada hi (Hora Inicial) y otra llamada hi (Hora Final) y en cada variable colocó el rango de fechas para los registros que quiero obtener

Ahora creo una variable llamada filtrar y dentro de ello hago uso de Operadores Lógicos de Python para filtrar las ventas realizadas entre las 9 AM y las 12 PM

Creo una variable llamada resultado y dentro de ella voy a obtener el filtrado de los datos usaré el método .loc y le paso el rango de fechas especificado en la variable filtrar

Por ultimo escribo la variable resultado para imprimir las ventas realizadas entre las 9 AM y las 12 PM

En Jupyter Notebook entonces debo de ver los datos filtrados en un tabla con las ventas realizadas entre las 9 AM y las 12 PM.

Nota: No olvides presionar el botón Run después de escribir código en una caja de texto.

Por ultimo puedo visualizar la información obtenida en un Plot Básico, para este usaré el método .plot y le concateno la variable resultado, también defino 2 columnas de datos, para x le daré el nombre de los productos (producto) y para y la fecha de creación de la venta (created_at)

Entonces obtengo un Gráfico en donde visualizo los datos obtenidos

A continuación el código completo

Bueno esto es solo el inicio, hasta aquí has visto que usamos el Lenguaje de Programación Python para hacer Análisis de Datos dentro de Jupyter Notebook, también he filtrado un rango de datos de Ventas de 9AM a 12PM y por ultimo he mostrado un Gráfico Básico para visualizar los datos obtenidos.

Ten Paciencia, lo que quiero es que entiendas todo el proceso de como funciona la Ciencia de Datos (Data Science) en una caso similar a la realidad.

Nota (s)

  • En el siguiente capitulo terminare con el análisis de los Demás Datos pendientes.
  • Más adelante usaré herramientas de Visualización de Datos más especializadas en el área.

 

Síguenos en nuestras Redes Sociales para que no te pierdas nuestros próximos contenidos.

Newsletter

Suscríbete a Nuestro Boletín de Novedades:

(Luego de la suscripción no te va salir ningun mensaje. Solo revisa tu bandeja de Correo para confirmar tu suscripción)
* indicates required