Data Warehouse (DW) para el dataset de NY Yellow Taxi Trips

Contenido Link to heading

Objetivo del Proyecto Link to heading

El objetivo principal es respaldar la toma de decisiones eficiente y basada en datos, integrando, transformando y organizando datos transaccionales sin procesar en un modelo dimensional bien estructurado, optimizado para consultas analíticas y creación de dashboards.

Descripción del Conjunto de Datos Link to heading

El conjunto de datos utilizado es el de New York Yellow Taxi Trips de 2018, disponible en BigQuery, que contiene información sobre viajes en taxi, incluyendo ubicaciones de recogida y entrega, distancia del viaje, monto del pasaje, monto total, cantidad de pasajeros, etc. Para más información, por favor visita el sitio web de la NYC.

Modelado Dimensional Link to heading

El Data Warehouse fue diseñado siguiendo el enfoque de esquema en estrella para garantizar simplicidad, alto rendimiento de consultas y flexibilidad analítica.

Componentes del Modelo Link to heading

  • Tabla de Hechos

    • fact_trips: Almacena métricas clave de rendimiento, como distancia del viaje, monto del pasaje, monto total y cantidad de pasajeros
  • Tablas de Dimensión

    • dim_time: Captura jerarquías temporales como día, mes, año y día de la semana.
    • dim_location: Describe zonas de recogida y entrega.
    • dim_payment: Contiene métodos de pago y sus descripciones.
    • dim_vendor: Identifica proveedores de servicios de taxi.

Este modelo permite análisis multidimensional por tiempo, ubicación, tipo de pago y proveedor, proporcionando valiosos conocimientos sobre el comportamiento del transporte urbano.

Star schema representation showing fact and dimension relationships.

Figura 1. Representación del esquema estrella que muestra las relaciones entre hechos y dimensiones.

Proceso ELT Link to heading

Para este proyecto se utilizó el patrón Extraer, Cargar y Transformar, ELT por sus siglas en inglés (Extract, Load, and Transform). Consiste en las siguientes etapas:

  1. Extracción
    Los datos se recuperan directamente del conjunto de datos públicos de viajes en taxi de NYC en BigQuery.

  2. Carga
    Los datos se cargan en tablas de BigQuery que se utilizan primero como tablas de preparación bajo un esquema raw para realizar limpieza y transformación de datos.

  3. Transformación
    Los datos se mueven a un esquema processed donde se limpian, se normalizan los tipos de datos y se crean atributos derivados. Luego, los datos se cargan en un esquema trusted en las tablas de hechos y dimensiones. Finalmente, se crean vistas materializadas para proporcionar acceso rápido a los datos.

Dashboard Link to heading

Usando Looker Studio conectado a BigQuery, se desarrolló un dashboard interactivo para analizar los patrones operativos y de movilidad de los servicios de taxi de NYC. Las visualizaciones que contiene respaldan información sobre volúmenes de viajes, distribución de ingresos, tendencias temporales y demanda geográfica, demostrando el valor analítico del diseño del Data Warehouse. Puedes acceder al dashboard aquí.

Debajo hay una captura de pantalla del dashboard, para que te puedas dar una idea de las gráficas que contiene.

Dashboard screenshot Figura 2. Dashboard interactivo para analizar los patrones operativos y de movilidad de los servicios de taxi de NYC.

Análisis y Resultados Link to heading

Tecnologías Utilizadas Link to heading

  • SQL
  • Google Cloud Platform (GCP)
  • BigQuery
  • Data Warehousing
  • Looker