Data Warehouse (DW) para el dataset de NY Yellow Taxi Trips
Contenido Link to heading
- Objetivo del Proyecto
- Descripción del Conjunto de Datos
- Proceso ELT
- Modelado Dimensional
- Dashboard
- Tecnologías Utilizadas
Objetivo del Proyecto Link to heading
El objetivo principal es respaldar la toma de decisiones eficiente y basada en datos, integrando, transformando y organizando datos transaccionales sin procesar en un modelo dimensional bien estructurado, optimizado para consultas analíticas y creación de dashboards.
Descripción del Conjunto de Datos Link to heading
El conjunto de datos utilizado es el de New York Yellow Taxi Trips de 2018, disponible en BigQuery, que contiene información sobre viajes en taxi, incluyendo ubicaciones de recogida y entrega, distancia del viaje, monto del pasaje, monto total, cantidad de pasajeros, etc. Para más información, por favor visita el sitio web de la NYC.
Modelado Dimensional Link to heading
El Data Warehouse fue diseñado siguiendo el enfoque de esquema en estrella para garantizar simplicidad, alto rendimiento de consultas y flexibilidad analítica.
Componentes del Modelo Link to heading
Tabla de Hechos
- fact_trips: Almacena métricas clave de rendimiento, como distancia del viaje, monto del pasaje, monto total y cantidad de pasajeros
Tablas de Dimensión
- dim_time: Captura jerarquías temporales como día, mes, año y día de la semana.
- dim_location: Describe zonas de recogida y entrega.
- dim_payment: Contiene métodos de pago y sus descripciones.
- dim_vendor: Identifica proveedores de servicios de taxi.
Este modelo permite análisis multidimensional por tiempo, ubicación, tipo de pago y proveedor, proporcionando valiosos conocimientos sobre el comportamiento del transporte urbano.

Figura 1. Representación del esquema estrella que muestra las relaciones entre hechos y dimensiones.
Proceso ELT Link to heading
Para este proyecto se utilizó el patrón Extraer, Cargar y Transformar, ELT por sus siglas en inglés (Extract, Load, and Transform). Consiste en las siguientes etapas:
Extracción
Los datos se recuperan directamente del conjunto de datos públicos de viajes en taxi de NYC en BigQuery.Carga
Los datos se cargan en tablas de BigQuery que se utilizan primero como tablas de preparación bajo un esquema raw para realizar limpieza y transformación de datos.Transformación
Los datos se mueven a un esquema processed donde se limpian, se normalizan los tipos de datos y se crean atributos derivados. Luego, los datos se cargan en un esquema trusted en las tablas de hechos y dimensiones. Finalmente, se crean vistas materializadas para proporcionar acceso rápido a los datos.
Dashboard Link to heading
Usando Looker Studio conectado a BigQuery, se desarrolló un dashboard interactivo para analizar los patrones operativos y de movilidad de los servicios de taxi de NYC. Las visualizaciones que contiene respaldan información sobre volúmenes de viajes, distribución de ingresos, tendencias temporales y demanda geográfica, demostrando el valor analítico del diseño del Data Warehouse. Puedes acceder al dashboard aquí.
Debajo hay una captura de pantalla del dashboard, para que te puedas dar una idea de las gráficas que contiene.
Figura 2. Dashboard interactivo para analizar los patrones operativos y de movilidad de los servicios de taxi de NYC.
Análisis y Resultados Link to heading
Tecnologías Utilizadas Link to heading
- SQL
- Google Cloud Platform (GCP)
- BigQuery
- Data Warehousing
- Looker