Como hacer Ciencia de Datos (Data Science) a los productos de una Tienda de Postres – Parte 8
Demo
Continuaré con el Capitulo Anterior Como hacer Análisis a los productos de una Tienda de Postres mediante Data Science – Parte 7 en donde realizamos Análisis de Datos de las Ventas Generales por la Mañana (9AM – 12PM) y creamos un sencillo Gráfico o Plot para visualizar estos datos, en este Post continuare con el Análisis de los siguientes datos, vamos con este Post.
Partes
Bien como voy a continuar haciendo Análisis de los Datos de los siguientes rangos de horarios, para mantener un orden de mis consultas voy a crear un nuevo archivo, para esto dentro de Jupyter voy a File > New Notebook > Python 3
Estos pasos debemos de realizar para cada nueva consulta, cada nueva consulta la almacenaremos en un nuevo documento así mantenemos todas por separado.
Anteriormente había analizado los datos de horario de la mañana, ahora continuaremos con el horario de la tarde
Datos Ventas Generales: Ventas Generales por la Tarde 12 PM – 6 PM
Primero importo la librería pandas y le doy el nombre de variable pd
1 2 3 4 |
import pandas import pandas as pd |
Luego crea una variable llamada ventas y dentro de ella hago lectura del archivo ventas.json que contiene los datos de las ventas realizadas durante todo el día en la Tienda de Postres
Creo una variable llamada datos y dentro de ella creo las columnas de mi tabla, estas columnas son id, producto, cliente, dni, fnacimientocliente, precio, img, created_at y updated_at
1 2 3 4 5 6 7 8 9 |
ventas = pandas.read_json("ventas.json", orient="split", encoding="utf-8") datos = pd.DataFrame( ventas, columns = ['id', 'producto', 'cliente', 'dni', 'fnacimientocliente', 'precio', 'img', 'created_at', 'updated_at']) datos |
Imprimo la variable datos presionando el botón Run para ejecutar mi código y obtengo una tabla con las ventas realizadas en el día
Como voy a revisar las ventas en el horario de la tarde debo usar la columna created_at, en esta columna se encuentra la hora, minuto y segundo de cada venta realizada en la Tienda de postres
1 2 3 |
datos['created_at'] = pd.to_datetime(datos['created_at']) |
Ahora creo 2 variables una llamada hi que son las iniciales de hora inicial y otra llamada hf que son las iniciales de hora final
En la variable hi coloco las 12 PM (12:00:00.000000) y en la variable hf coloco las 6PM (18:00:00.000000)
Nota: Estoy trabajando con el formato de 24 horas
1 2 3 4 |
hi = '2019-09-16 12:00:00.000000' hf = '2019-09-16 18:00:00.000000' |
Creo una variable llamada filtrar y dentro de ella selecciono el rango de fechas que necesito, si la hora de la columna created_at es mayor o igual a el horario de la variable hi (12PM) y si la hora de la columna created_at es menor o igual que la hora de la variable hf (6PM)
1 2 3 |
filtrar = (datos['created_at'] >= hi) & (datos['created_at'] <= hf) |
Creo una variable llamada resultado y dentro de ella voy a obtener el filtrado de los datos usaré el método .loc y le paso el rango de fechas especificado en la variable filtrar
Por ultimo escribo la variable resultado para imprimir las ventas realizadas entre las 12 PM y las 6 PM
1 2 3 4 |
resultado = datos.loc[filtrar] resultado |
Presiono el botón Run y obtengo una tabla con las ventas realizas por la tarde (12 PM – 6 PM)
Ahora voy a imprimir un gráfico con los datos de las ventas realizadas por la tarde (12 PM a 6 PM), para esto importo la librería matplotlib.pyplot y la asigno a una variable a la cual le doy de nombre plot
Luego le configuro un ancho y alto a mi gráfico le daré un ancho de 20 y un alto de 11, estas medidas son en pulgadas
1 2 3 4 |
import matplotlib.pyplot as plot plot.rcParams["figure.figsize"] = 20,11 # ancho: 20 , alto: 11 |
Por ultimo paso la variable resultado a mi gráfico y que imprima las columnas producto y created_at
1 2 3 |
resultado.plot(x="producto", y="created_at") |
Presiono el botón Run y obtengo un gráfico con los datos de las ventas realizadas por la Tardes (12 PM – 6 PM)
A continuación el código completo
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
import pandas import pandas as pd # Lectura del archivo ventas.json ventas = pandas.read_json("ventas.json", orient="split", encoding="utf-8") datos = pd.DataFrame( ventas, columns = ['id', 'producto', 'cliente', 'dni', 'fnacimientocliente', 'precio', 'img', 'created_at', 'updated_at']) datos # Obtener Ventas realizas de 12PM a 6PM datos['created_at'] = pd.to_datetime(datos['created_at']) hi = '2019-09-16 12:00:00.000000' hf = '2019-09-16 18:00:00.000000' filtrar = (datos['created_at'] >= hi) & (datos['created_at'] <= hf) resultado = datos.loc[filtrar] resultado # Crear un Gráfico Básico (Plot) con los datos Filtrados import matplotlib.pyplot as plot plot.rcParams["figure.figsize"] = 20,11 # ancho: 20 , alto: 11 resultado.plot(x="producto", y="created_at") |
Bueno hasta aquí he filtrado un rango de datos de Ventas de 12 PM a 6 PM y por ultimo he mostrado un Gráfico Básico para visualizar los datos obtenidos.
Ten Paciencia, lo que quiero es que entiendas todo el proceso de como funciona la Ciencia de Datos (Data Science) en una caso similar a la realidad.
Nota (s)
- En el siguiente capitulo terminare con el análisis de los Demás Datos pendientes.
- Más adelante usaré herramientas de Visualización de Datos más especializadas en el área.
Síguenos en nuestras Redes Sociales para que no te pierdas nuestros próximos contenidos.
- Data Science (Ciencia de Datos)
- 23-11-2019
- 13-08-2021
- Crear un Post - Eventos Devs - Foro