Análisis encuestas de una aerolínea

 - 
Catalan
 - 
ca
English
 - 
en
French
 - 
fr
Spanish
 - 
es

¡Vaya, veo que eres tan curioso/a como yo!


¡Hola! Soy Cristina, una entusiasta del descubrimiento y la exploración. Déjame llevarte por un emocionante viaje de conocimiento y aventura dentro de un laberinto de información, donde cada número esconde una historia, se revelarán conexiones sorprendentes y los secretos mejor guardados del pasado y el futuro.

¿Estás listo/a? Entonces, acompáñame, navega por la web y disfruta del viaje.

sábado, 18 octubre 2025 12:14 pm

Barcelona
Current weather

Análisis encuestas aerolínea

Introducción

Una compañía aérea ha realizado encuestas aleatorias a sus pasajeros con el objetivo de conocer a sus clientes e identificar áreas de mejora que incrementen su satisfacción y mejoren la experiencia general de vuelo.

1. Diseño del proyecto

En primer lugar, es fundamental comprender el propósito del proyecto para identificar las palancas pertinentes y sus KPI’s. Para ello, plantearemos una serie de cuestiones necesarias para filtrar y determinar qué datos son esenciales y cuáles son prescindibles para alcanzar los objetivos establecidos.

El objetivo en este caso es conocer el perfil de nuestros clientes, identificar áreas de mejora y aplicar acciones estratégicas que incrementen su satisfacción y maximicen los beneficios de la compañía. Para ello, realizaremos un análisis del perfil de los encuestados, los principales factores que influyen en su satisfacción y los servicios peor valorados.

Estas preguntas proporcionarán una base sólida para el análisis y las recomendaciones estratégicas que se planean realizar:
¿Cómo varía la satisfacción del pasajero según la clase de vuelo?
¿Cuál es el impacto de los retrasos en la salida y llegada en la satisfacción del pasajero?
¿Qué aspectos del servicio a bordo tienen el mayor impacto en la satisfacción del pasajero?
¿Cómo influye la facilidad de reserva en línea y el proceso de check-in en la satisfacción del pasajero?
¿Cuál es la relación entre la edad y la satisfacción del pasajero? ¿Existen diferencias significativas en las preferencias y expectativas de diferentes grupos de edad?
¿Cómo afectan los diferentes tipos de viaje (negocios vs. ocio) a la satisfacción del pasajero? ¿Hay aspectos específicos del servicio que son más importantes para cada tipo de viaje?
¿Cuál es el impacto de la duración del vuelo (distancia de vuelo) en la satisfacción del pasajero? ¿Existen diferencias en las preferencias y necesidades de los pasajeros en vuelos cortos vs. vuelos largos?
¿Qué influencia tiene el género del pasajero en su percepción de la experiencia de vuelo? ¿Hay diferencias significativas en las preferencias y experiencias entre hombres y mujeres?
¿Cuál es el nivel de satisfacción de los pasajeros habituales (clientes recurrentes) en comparación con los pasajeros ocasionales? ¿Qué aspectos del servicio son más importantes para retener a los clientes leales?
¿Qué factor tiene más influencia en la satisfacción del pasajero?

2. Análisis de los ficheros y preparación del dataframe

Esta primera toma de contacto proporciona una comprensión inicial de la información disponible y ayuda a planificar los siguientes pasos en el análisis, en lo que se conoce como el proceso de ETL.

Para ello, cargamos los archivos y examinamos sus columnas para entender qué tipo de información contienen, el tipo de datos y evaluar la calidad de estos, verificando si hay nulos, duplicados, valores atípicos o inconsistencias que nos llevarían a descartar dichas variables. Finalmente, creamos un único dataframe que utilizaremos para el análisis futuro y lo guardaremos en una base de datos.

En nuestro caso, tenemos un archivo en formato CSV en el cual observamos lo siguiente:

Todas las variables tienen los tipos de datos correctos. Sin embargo, la variable ‘arrival_delay’, que es un float, podría cambiarse a int para mantener la consistencia con la variable ‘departure_delay’, que es un int.

La variable ‘arrival_delay’ tiene 393 datos nulos. Realizamos un análisis de correlación entre la variable ‘departure_delay’ y esta misma, y observamos una correlación lineal muy fuerte. Para imputar los valores nulos, aplicamos dos opciones: 1. Si el valor de ‘departure_delay’ está repetido, el valor de ‘arrival_delay’ será la media de sus valores. 2. Si el valor de ‘departure_delay’ no está repetido, se imputa a ‘arrival_delay’ el mismo valor que tiene en ‘departure_delay’.

El análisis de duplicados ha dado negativo, lo cual es un buen indicador de que cada registro corresponde a un pasajero único.

El análisis de estadísticos y de valores únicos nos confirma la consistencia de los datos y nos empieza a dar pequeñas pinceladas del valor de las variables.

Eliminamos la columna ‘Id’ ya que no nos sirve para el posterior análisis.

Por último, limpiamos y cambiamos el nombre de las variables para evitar posibles errores.

A continuación, creamos nuevas variables a partir de datos de la tabla:

age_group: Partiendo de la variable ‘age’, que contiene la edad de cada pasajero, creamos una nueva variable que asigna a cada uno de ellos la etapa de la vida en la cual se encuentran. En nuestro caso, hemos creado la siguiente clasificación: niños, adolescentes, jóvenes, adultos y mayores de 59. De esta forma, podemos agrupar y clasificar a los pasajeros según el grupo de edad al que pertenecen.

flight_type: Tenemos la variable ‘flight_distance’ con la duración del vuelo en millas. A partir de esta, creamos otra variable con una clasificación según el tipo de vuelo (corto radio, medio radio, largo radio). En un caso real, el criterio para realizar esta clasificación depende de varios factores. En nuestro caso, y para simplificar, se ha decidido que hasta 600 millas se considerará de corto radio, entre 600 y 3000 millas será medio radio, y más de 3000 millas será largo radio. Esta clasificación es mucho más útil que las millas como tal.

delayed_departure: Tenemos la variable ‘departure_delay’ con los minutos de retraso a la salida. Esta variable nos puede ser útil para calcular los OTP o las medias, pero en nuestro caso también vamos a crear una variable que otorgue el concepto ‘Sin retraso’ cuando el registro de ‘departure_delay’ sea igual a 0, o ‘Con retraso’ cuando sea superior a 0.

delayed_arrival: Utilizando la misma lógica que en el caso anterior, hacemos lo mismo partiendo de la variable ‘arrival_delay’.

Por último, guardamos el dataframe obtenido como df en formato bbdd y otro como un excel, ya que este será el que utilizaremos para nuestro análisis de datos.

3. Análisis de los dataframe

Exploramos el dataframe con la máxima granularidad respecto al perfil de nuestros clientes, la distribución de la satisfacción por cada factor, y conjuntamente. Con el objetivo de dar repuesta a las preguntas que nos habíamos planteado anteriormente, encontrar correlaciones entre las variables y patrones de comportamiento.

4. Interpretación de resultados

A continuación tienes un video donde se exponen los principales insights obtenidos y recomendaciones para poder implementar acciones estratégicas.

O si prefieres puedes descargar el informe completo aquí:

5. Visualización


La visualización sirve para representar la información de manera gráfica y comprensible, lo que facilita la exploración, comprensión y comunicación de los datos. En nuestro caso se ha realizado con Tableau.

En el siguiente enlace podéis acceder al dashboard realizado:
IR AL DASHBOARD