Como hacer Ciencia de Datos (Data Science) a los productos de una Tienda de Postres – Parte 7

5 minuto(s)

Demo

Continuando con el Capitulo Anterior llamado Como hacer Análisis a los productos de una Tienda de Postres mediante Data Science – Parte 6, en este nuevo Capitulo Nro 7 empezaré filtrando los primeros Datos que deseo consultar de mi archivo ventas.json, así inicio con la parte importante de este Tutorial, el juego de la Ciencia de Datos, vamos con este Capitulo. 

Partes

Haciendo Data Science (Ciencia de Datos)

Con la librería Pandas puedo llevar acabo el análisis de mis Datos dentro de Jupyter Notebook con el Lenguaje de Programación Python

En Jupyter Notebook importo la librería Pandas de 2 maneras, uno como librería principal y en la otra la convierto a la variable pd para poder usarla más adelante.

Dentro de cada caja de texto de Jupyter Notebook puedo escribir código Python y para que se ejecute el código que he escrito debo presionar el botón Run que se encuentra en la parte de arriba

Por ejemplo escribo e importo la librería Pandas de la siguiente manera y presiono el botón Run para que se ejecute las 2 líneas y cuando termine de ejecutarse el código, el cursor salta a la siguiente caja de Texto en donde puedo continuar escribiendo código Python

En el código seria así:


Carga de Datos

Lo siguiente que haré es leer el archivo ventas.json que contiene los datos que quiero analizar, creo la variable ventas en donde mediante el método pandas.read_json hago una lectura del archivo ventas.json, luego le agrego el parámetro orient=”split” formateo los datos del archivo JSON y por ultimo le agrego la codificación con el parámetro encoding=”utf-8″ (Si no le agregamos el parámetro encoding=”utf-8″) nuestros datos no se visualizarán correctamente


Paso seguido crea una nueva variable llamada datos, dentro de esta variable usaré el método DataFrame de Pandas para crear la estructura de Datos con las Ventas almacenadas en el archivo ventas.json, dentro del método DataFrame paso la variable ventas y añado el parámetro columns en donde especifico las columnas que tiene mi archivo ventas.json


Estas columnas como puedes ver en la estructura del archivo JSON son id, producto, cliente, dni, fnacimientocliente, precio, img, created_atupdated_at

Al final escribo la variable datos para que se impriman los datos en una tabla


Entonces debería de mostrarse los datos del archivos ventas.json en una tabla

Jugando con los Datos (Haciendo Ciencia de Datos)

En el capitulo 2 mencione los datos que iba analizar del sistema de ventas de la tienda de Postres, puedes revisarlo en la Parte 2

Datos Ventas Generales: Ventas Generales por la Mañana 9 AM – 12 PM

Para esto haré uso de la columna created_at que es la fecha de una determinada Venta registrada en el Sistema de Ventas de Postres, lo primero que haré es convertir con el método pandas.to_datetime a fechas  los datos almacenados en la columna created_at


Luego crearé un Rango de tiempo, como quiero obtener los datos de Ventas Generales por la Mañana de 9 AM a 12 PM, pues creare 2 variables una llamada hi (Hora Inicial) y otra llamada hf (Hora Final) y en cada variable colocó el rango de fechas para los registros que quiero obtener


Ahora creo una variable llamada filtrar y dentro de ello hago uso de Operadores Lógicos de Python para filtrar las ventas realizadas entre las 9 AM y las 12 PM


Creo una variable llamada resultado y dentro de ella voy a obtener el filtrado de los datos usaré el método .loc y le paso el rango de fechas especificado en la variable filtrar

Por ultimo escribo la variable resultado para imprimir las ventas realizadas entre las 9 AM y las 12 PM


En Jupyter Notebook entonces debo de ver los datos filtrados en un tabla con las ventas realizadas entre las 9 AM y las 12 PM

Nota: No olvides presionar el botón Run después de escribir código en una caja de texto.

Ahora voy a imprimir un gráfico con los datos de las ventas realizadas por la mañana (9 AM a 12 PM), para esto importo la librería matplotlib.pyplot y la asigno a una variable a la cual le doy de nombre plot

Luego le configuro un ancho y alto a mi gráfico le daré un ancho de 20 y un alto de 11, estas medidas son en pulgadas


Por ultimo paso la variable resultado a mi gráfico y que imprima las columnas producto y created_at


Presiono el botón Run y obtengo un gráfico con los datos de las ventas realizadas por la Tardes (9 AM – 12 PM)

A continuación el código completo


Bueno esto es solo el inicio, hasta aquí has visto que usamos el Lenguaje de Programación Python para hacer Análisis de Datos dentro de Jupyter Notebook, también he filtrado un rango de datos de Ventas de 9 AM a 12 PM y por ultimo he mostrado un Gráfico Básico para visualizar los datos obtenidos.

Ten Paciencia, lo que quiero es que entiendas todo el proceso de como funciona la Ciencia de Datos (Data Science) en una caso similar a la realidad.

Nota (s)

  • En el siguiente capitulo terminare con el análisis de los Demás Datos pendientes.
  • Más adelante usaré herramientas de Visualización de Datos más especializadas en el área.

 

Síguenos en nuestras Redes Sociales para que no te pierdas nuestros próximos contenidos.