Capítulo 5 Análisis de datos

Barcelona

Ejemplificaremos con datos de alojamientos de Airbnb en la ciudad de Barcelona, España, disponibles en Inside Airbnb. La elección de los datos no responde a hacerle publicidad a esta empresa, simplemente los elegí porque contiene variables interesantes.

Trabajaremos con los datos de alojamientos en Barcelona de Airbnb al 10 de enero de 2020. Son datos abiertos disponibles en http://insideairbnb.com/get-the-data.html. Son datos abiertos con licencia Creative Commons CC0 1.0 Universal "Public Domain Dedication.

Archivos Descripción
listings.csv listado de alojamientos disponibles
reviews.csv evaluaciones de personas alojadas
neighbourhoods.csv listado de barrios
neighbourhoods.geojson información geográfica de los barrios

¿Cómo funciona Airbnb?

Quienes se hospedan pueden elegir entre casas/apartamentos enteros, solo cuartos privados o cuartos compartidos (room_type). Luego de la estadía deben dejar una evaluación (review). Los alojamientos varían en precio, mínimo de días de estadía, los días disponible, etc.

Lisboa

Figure 5.1: Lisboa

Accedemos a los datos desde la url o de manera local si ya los descargamos en la computadora. Está disponible el listado de alojamientos con sus características en un archivo csv y la información geográfica de los barrios en un formato geojson. Primero trabajaremos con el listado de alojamientos.

Pero si previamente los bajamos, podemos importarlos desde la carpeta data del proyecto

5.1 Explorar datos

Lo primero que conviene hacer, sobre todo si no hemos trabajado antes con estos datos, es explorarlos. Las funciones básicas que dispone R para esto son las siguientes:

  • head(): muestra los primeros casos. Por defecto, los primeros 6.
  • tail(): muestra los últimos 6 casos. Por defecto, los últimos 6.
  • View(): para mirar la base, como si abriéramos el archivo. Si es muy grande no se mostrarán todas filas ni todas las variables.
  • summary(): brinda un resumen estadístico de cada variable cuando se aplica a un data.frame o de la variable en particular indicada. Si la variable es numérica se muestra el mínimo, máximo y los cuartiles. En caso de una variable de texto se muestra una tabla de los valores que toma.
  • names(): brinda el listado de nombres de variables.

Acá puedes ver la descripción de las variables que contiene la base.

Tabla de variables

Variable Tipo Descripción
id identificador del alojamiento numérica
name nombre del alojamiento texto
host_id identificador de la persona anfitriona numérica
host_name nombre de la persona anfitriona texto
neighbourhood_group nombre del barrio agrupado texto
neighbourhood nombre del barrio texto
latitude latitud numérica
longitud longuitud numérica
room_type tipo de habitación texto
price precio numérica
minimum_nights cantidad mínima de noches numérica
number_of_reviews cantidad de evaluaciones numérica
last_review última evaluación fecha
reviews_per_month evaluaciones por mes numérica
calculated_host_listings_count
availability_365 disponibilidad en el año numérica

Exploremos una variable character como lo es room_type y una numeric como price.

Visualizar los datos

Las funciones dim(), names() y str() admiten un data frame como argumento.

La función summary() admite un data frame como argumento pero también una variable.

Variables numéricas

Para acceder a una variable de un data frame es necesario escribir <objeto>$<variable>