Capítulo 7 Análisis de datos

Barcelona

Ejemplificaremos con datos de alojamientos de Airbnb en la ciudad de Barcelona, España, disponibles en Inside Airbnb. La elección de los datos no responde a hacerle publicidad a esta empresa, simplemente los elegí porque contiene variables interesantes.

Accedemos a los datos desde la url o de manera local si ya los descargamos en la computadora. Está disponible el listado de alojamientos con sus características en un archivo csv y la información geográfica de los barrios en un formato geojson. Primero trabajaremos con el listado de alojamientos.

Pero si previamente los bajamos, podemos importarlos desde la carpeta data del proyecto

7.1 Explorar datos

Lo primero que conviene hacer, sobre todo si no hemos trabajado antes con estos datos, es explorarlos. Las funciones básicas que dispone R para esto son las siguientes:

  • head(): muestra los primeros casos. Por defecto, los primeros 6.
  • tail(): muestra los últimos 6 casos. Por defecto, los últimos 6.
  • View(): para mirar la base, como si abriéramos el archivo. Si es muy grande no se mostrarán todas filas ni todas las variables.
  • summary(): brinda un resumen estadístico de cada variable cuando se aplica a un data.frame o de la variable en particular indicada. Si la variable es numérica se muestra el mínimo, máximo y los cuartiles. En caso de una variable de texto se muestra una tabla de los valores que toma.
  • names(): brinda el listado de nombres de variables.

Acá puedes ver la descripción de las variables que contiene la base.

Tabla de variables

Variable Tipo Descripción
id identificador del alojamiento numérica
name nombre del alojamiento texto
host_id identificador de la persona anfitriona numérica
host_name nombre de la persona anfitriona texto
neighbourhood_group nombre del barrio agrupado texto
neighbourhood nombre del barrio texto
latitude latitud numérica
longitud longuitud numérica
room_type tipo de habitación texto
price precio numérica
minimum_nights cantidad mínima de noches numérica
number_of_reviews cantidad de evaluaciones numérica
last_review última evaluación fecha
reviews_per_month evaluaciones por mes numérica
calculated_host_listings_count
availability_365 disponibilidad en el año numérica

Exploremos una variable character como lo es room_type y una numeric como price.