3 tidyverse I: dplyr y pipelines

Autores/as

Carrasco Escobar, Gabriel

Peña Calero, Brian Norman

Villa Almeyda, Diego

Hasta el momento hemos utilizado solo comandos de base, es decir, comandos que vienen dentro del funcionamiento básico de R.

La filosofía de tidy data nace del libro “R for Data Science” de Wickham y Grolemund (2016).

Tidy data es data tabular que está organizada de la siguiente manera:

Cada columna es una (única) variable
Cada fila es una (única) observación

tidyverse es una colección de paquetes de R diseñados para la ciencia de datos. Todos estos paquetes comparten la misma filosofía, por lo que aplican las mismas reglas de sintaxis sobre todos estos paquetes.

Los paquetes de tidyverse son:

Optimizados para correr mas rápido en C++
Mantenidos por un staff pagado de desarrolladores
Bien documentados.

Existe más de 25 paquetes dentro del tidyverse y conforman un ecosistema para importar, estructurar, visualizar, modelar y comunicar datos.

Estos paquetes pueden ser cargados de forma individual. Sin embargo, el paquete tidyverse permite cargar 9 paquetes considerados el core de tidyverse:

dplyr
ggplot2
tidyr
tibble
purrr
readr
stringr
forcats
lubridate

Estos paquetes son considerados el core de tidyverse porque son los paquetes más usados y generalmente son usados de forma conjunta. Sin embargo, hay un universo más amplio de paquetes que utilizan esta filosofía:

3.1 Paquetes y data

En esta sección utilizaremos las funciones del paquete tidyverse para el procesamiento de datos. A partir de ahora, para la lectura de los datos usaremos la función read_csv(), la cual es la versión tidy de la función base read.csv(). La principal diferencia entre read_csv() y la función base es que read_csv() devuelve un data frame en formato tibble, el cual es el formato estándar en el universo de tidyverse. Otra diferencia importante es que read_csv() es más rápido para leer conjuntos de datos grandes.

Cargamos el paquete tidyverse con el siguiente código:

library(tidyverse)

Ahora, leeremos el archivo de datos a utilizar:

who <- read_csv("data/who.csv")

El conjunto de datos who contiene datos del Global Health Observatory de la Organización Mundial de la Salud (OMS). Contiene 359 variables para 202 países y territorios. El diccionario de este conjunto de datos se encuentra en Anexos.

3.2 Paquete dplyr

Comenzaremos utilizando algunas de las funciones más populares de la paquete dplyr.

3.2.1 Verbo select()

Usaremos la función select() para seleccionar las variables (o columnas) de interés. Seleccionaremos las variables país (country), gasto público en salud (% del PBI) (health_expenditure_gdp) y la expectativa de vida al nacer (life_expectancy_birth)

who_vars <- select(who, country, health_expenditure_gdp, 
                   life_expectancy_birth)

Show entries

Search:

	country	health_expenditure_gdp	life_expectancy_birth
1	Afghanistan	1.04	43.4
2	Albania	2.62	76.23
3	Algeria	2.64	71.97
4	Andorra
5	Angola	1.47	42.3
6	Antigua and Barbuda	3.24
7	Argentina	4.48	75.08
8	Armenia	1.78	71.82
9	Australia	5.9	81.19
10	Austria	7.72	79.66

Showing 1 to 10 of 202 entries

Previous1 2 3 4 5…21Next

Podemos usar el operador : para establecer que queremos seleccionar desde la variable infant_mortality_rate hasta la variable infant_mortality_rate_males como si se tratase de una lista.

who_vars2 <- select(who, infant_mortality_rate:infant_mortality_rate_males)

Show entries

Search:

	infant_mortality_rate	infant_mortality_rate_females	infant_mortality_rate_males
1	165	154	176
2	15	14	15
3	33	31	36
4	3	2	3
5	154	147	161
6	10	9	11
7	14	13	16
8	21	20	23
9	5	4	6
10	4	3	4

Showing 1 to 10 of 202 entries

Previous1 2 3 4 5…21Next

3.2.2 Verbo filter()

La función filter() nos permite filtrar observaciones que cumplen una condición de interés.

La condición puede definirse en base a variables categóricas:

who_africa <- filter(who, continent == "Africa")

Show entries

Search:

	continent_id	country_id	continent	country	population	urban_population	pop_under_poverty_line	life_expectancy_birth	inequality_index	literacy_rate	literacy_rate_males	literacy_rate_females	co2_economic_output	gni_per_capita	health_expenditure_gdp	health_expenditure_person	hospital_beds	children_out_school_primary	expenditure_student_primary	malnutrition_weight_age	infant_mortality_rate	infant_mortality_rate_females	infant_mortality_rate_males	under_5_mortality_rate	maternal_mortality_rate	tb_treatment_success
1	3	3	Africa	Algeria	32500000	20800000		71.97	35.3	69.87	79.57	86.13	1.02	5940	2.64	108	17	38931	11.31	10.2	33	31	36		180	87
2	3	5	Africa	Angola	11800000	8578749		42.3		67.41	82.9	63.18	0.16	3890	1.47	36	1			27.5	154	147	161		1400	72
3	3	19	Africa	Benin	7649360	3404610.8	30.9	56.15	36.48	34.66	47.87	33.24	0.24	1250	3	28	5	277372	11.54	21.5	88	85	90	175.5	840	87
4	3	24	Africa	Botswana	1640115	1053828.4		49.7	60.51	81.19	80.43	95.6	0.2	11730	4.45	362	24	35764	15.74	10.7	90	88	91		380	70
5	3	28	Africa	Burkina Faso	13500000	2549805.5	27.2	51.88	39.51	23.55	31.44	26.48	0.08	1130	3.99	27	9	1260191	31.49	35.2	122	117	126	201.5	700	71
6	3	29	Africa	Burundi	7795426	785879.1		49.03	42.39	59.3	67.31	70.37	0.09	320	0.97	3	7	525777	19.13	38.9	109	94	123		1100	79
7	3	31	Africa	Cameroon	17000000	9716151	17.1	50.29	44.56	67.9	77		0.11	2060	1.46	49	15		6.14	15.1	87	79	94	168.8	1000	74
8	3	34	Africa	Central African Republic		1592743			61.33	48.57	64.77	46.87	0.09	690	1.5	13	12	372457	10.49	21.8	114	110	118	178.4	980	65
9	3	35	Africa	Chad	9657069	2566839		50.62		25.65	40.83	23.24	0.01	1170	1.47	22	4	612937	6.77	33.9	124	116	132	208	1500	69
10	3	39	Africa	Comoros	671247	222181.12		64.61					0.14	1140	1.6	14	17	49413	9.32	25	51	46	57	122.6	400	91

Showing 1 to 10 of 48 entries

Previous1 2 3 4 5Next

O en base a variables numéricas:

En este ejemplo filtraremos todos los paises que tienen una población de más de 10 millones

who_10m <- filter(who, population > 10000000)

Show entries

Search:

	continent_id	country_id	continent	country	population	urban_population	pop_under_poverty_line	life_expectancy_birth	inequality_index	literacy_rate	literacy_rate_males	literacy_rate_females	co2_economic_output	gni_per_capita	health_expenditure_gdp	health_expenditure_person	hospital_beds	children_out_school_primary	expenditure_student_primary	malnutrition_weight_age	infant_mortality_rate	infant_mortality_rate_females	infant_mortality_rate_males	under_5_mortality_rate	maternal_mortality_rate	tb_treatment_success
1	1	1	Eastern Mediterranean	Afghanistan	29900000	5740436		43.4		28	43.14	18.39	0.04		1.04	20	4				165	154	176		1800	90
2	3	3	Africa	Algeria	32500000	20800000		71.97	35.3	69.87	79.57	86.13	1.02	5940	2.64	108	17	38931	11.31	10.2	33	31	36		180	87
3	3	5	Africa	Angola	11800000	8578749		42.3		67.41	82.9	63.18	0.16	3890	1.47	36	1			27.5	154	147	161		1400	72
4	5	7	South America	Argentina	39500000	34900000	6.6	75.08	51.32	97.19	97.19	99.13	0.37	11670	4.48	484	41	32669	11.32	2.3	14	13	16		77	53
5	6	9	Western Pacific	Australia	20100000	18000000		81.19	35.19				0.48	33940	5.9	3181	40	61880	15.93		5	4	6		4	80
6	7	14	South East Asia	Bangladesh	144000000	38500000	41.3	63.55	33.2	47.49	53.9	60.26	0.24	1230	0.81	12	3	1371222	7.62	39.2	52	46	57	97.7	570	91
7	2	16	Europe	Belarus	10300000	7057977	2	68.87	27.95	99.59	99.79	99.83	0.85	9700	5	204	112	40262	14.14		6	5	7		18	73
8	2	17	Europe	Belgium	10400000	10200000		79.2	32.97				0.31	33860	6.85	3451	53	15830	19.95		4	4	4		8	66
9	5	25	South America	Brazil	186000000	157000000	7.5	72.04	56.6	88.62	88.41	97.9	0.22	8700	3.48	371	26	560725	12.79	3.7	19	17	21	79.4	110	77
10	3	28	Africa	Burkina Faso	13500000	2549805.5	27.2	51.88	39.51	23.55	31.44	26.48	0.08	1130	3.99	27	9	1260191	31.49	35.2	122	117	126	201.5	700	71

Showing 1 to 10 of 73 entries

Previous1 2 3 4 5…8Next

Podemos incluir también un rango de filtración. Por ejemplo tener solo países que tengan entre 5 y 10 millones de habitantes:

who_ame5m10m <- filter(who, between(population, 
                                    5000000, 10000000))

Show entries

Search:

	continent_id	country_id	continent	country	population	urban_population	pop_under_poverty_line	life_expectancy_birth	inequality_index	literacy_rate	literacy_rate_males	literacy_rate_females	co2_economic_output	gni_per_capita	health_expenditure_gdp	health_expenditure_person	hospital_beds	children_out_school_primary	expenditure_student_primary	malnutrition_weight_age	infant_mortality_rate	infant_mortality_rate_females	infant_mortality_rate_males	under_5_mortality_rate	maternal_mortality_rate	tb_treatment_success
1	2	10	Europe	Austria	8184691	5433978		79.66	29.15				0.25	36040	7.72	3788	76	11081	22.52		4	3	4		4	75
2	2	11	Europe	Azerbaijan	7911974	4321803	3.7	67.33	36.5	98.79	99.47	99.9	1.03	5430	0.97	62	81	96529	6.02	14	73	70	76		82	59
3	3	19	Africa	Benin	7649360	3404610.8	30.9	56.15	36.48	34.66	47.87	33.24	0.24	1250	3	28	5	277372	11.54	21.5	88	85	90	175.5	840	87
4	5	22	South America	Bolivia	8857870	5894853.5	23.2	65.14	60.05	86.72	93.06	96.11	0.21	3810	4.25	71	11	51874	16.23	5.9	50	47	52	113.4	290	78
5	2	27	Europe	Bulgaria	7450349	5418000	2	72.52	29.21	98.2	98.74	98.11	0.63	10270	4.67	272	62	15607	11.88	1.6	10	10	10		11	86
6	3	29	Africa	Burundi	7795426	785879.1		49.03	42.39	59.3	67.31	70.37	0.09	320	0.97	3	7	525777	19.13	38.9	109	94	123		1100	79
7	3	35	Africa	Chad	9657069	2566839		50.62		25.65	40.83	23.24	0.01	1170	1.47	22	4	612937	6.77	33.9	124	116	132	208	1500	69
8	2	49	Europe	Denmark	5432335	4636077		78.32	24.7				0.3	36190	7.65	4350	38	15525	24.83		3	3	4		3	83
9	5	55	South America	El Salvador	6704932	3987677	19	71.59	52.36	80.64	82.14	90.33	0.18	5610	3.77	177.17	9	29880	9.24	6.1	22	20	24		170	91
10	2	61	Europe	Finland	5223442	3205367		79.09	26.88				0.42	33170	5.84	2824	70	5083	18.82		3	2	3		7

Showing 1 to 10 of 29 entries

Previous1 2 3Next

Así como también filtrar por múltiples criterios:

who_ame10m <- filter(who, continent == "South America",
                     population > 10000000)

Show entries

Search:

	continent_id	country_id	continent	country	population	urban_population	pop_under_poverty_line	life_expectancy_birth	inequality_index	literacy_rate	literacy_rate_males	literacy_rate_females	co2_economic_output	gni_per_capita	health_expenditure_gdp	health_expenditure_person	hospital_beds	children_out_school_primary	expenditure_student_primary	malnutrition_weight_age	infant_mortality_rate	infant_mortality_rate_females	infant_mortality_rate_males	under_5_mortality_rate	maternal_mortality_rate	tb_treatment_success
1	5	7	South America	Argentina	39500000	34900000	6.6	75.08	51.32	97.19	97.19	99.13	0.37	11670	4.48	484	41	32669	11.32	2.3	14	13	16		77	53
2	5	25	South America	Brazil	186000000	157000000	7.5	72.04	56.6	88.62	88.41	97.9	0.22	8700	3.48	371	26	560725	12.79	3.7	19	17	21	79.4	110	77
3	5	36	South America	Chile	16000000	14300000	2	78.38	54.92	95.72	95.8	99.18	0.33	11300	2.78	396.78	23	97250	11.94		8	7	9		16	78
4	5	38	South America	Colombia	43000000	32700000	7	72.59	56.23	92.85	92.78	98.37	0.21	6130	6.19	201	12	327922	19.17	5.1	17	14	20	32.6	130	71
5	5	46	South America	Cuba	11300000	8501228		77.99		99.8	99.81	99.95			6.9	310	49	26741	37.26		5	5	6		45	91
6	5	53	South America	Ecuador	13400000	8202303.5		74.79	53.55	90.98	92.33	96.49	0.35	6810	2.12	147	17	11727	3.24	6.2	21	18	23		210	83
7	5	71	South America	Guatemala	12000000	5998914	13.5	69.94	49.39	69.1	75.42	78.39	0.2	5120	1.97	131.75	7	102698	4.92	17.7	31	30	31	68.5	290	85
8	5	143	South America	Peru	27900000	19800000	10.5	71.04	52.02	87.91	93.72	96.29	0.19	6490	2.11	125	9	32483	6.64	5.2	21	20	23	85.3	240	91

Showing 1 to 8 of 8 entries

Previous1Next

Podemos usar la función drop_na() del paquete tidyr, el cual es un operador lógico que crea un valor de TRUE si la observación no tiene algún valor NA en las variables del conjunto de datos y FALSE en el caso contrario.

En este ejemplo, filtraremos todas las observaciones que tienen datos completos en todas las variables del conjunto de datos.

who_complete <- drop_na(who)

Show entries

Search:

	continent_id	country_id	continent	country	population	urban_population	pop_under_poverty_line	life_expectancy_birth	inequality_index	literacy_rate	literacy_rate_males	literacy_rate_females	co2_economic_output	gni_per_capita	health_expenditure_gdp	health_expenditure_person	hospital_beds	children_out_school_primary	expenditure_student_primary	malnutrition_weight_age	infant_mortality_rate	infant_mortality_rate_females	infant_mortality_rate_males	under_5_mortality_rate	maternal_mortality_rate	tb_treatment_success
1	2	8	Europe	Armenia	2982904	1934320.8	2	71.82	33.77	99.4	99.67	99.86	0.33	4950	1.78	88	44	18327	4.39	4.2	21	20	23	42	76	72
2	7	14	South East Asia	Bangladesh	144000000	38500000	41.3	63.55	33.2	47.49	53.9	60.26	0.24	1230	0.81	12	3	1371222	7.62	39.2	52	46	57	97.7	570	91
3	3	19	Africa	Benin	7649360	3404610.8	30.9	56.15	36.48	34.66	47.87	33.24	0.24	1250	3	28	5	277372	11.54	21.5	88	85	90	175.5	840	87
4	5	22	South America	Bolivia	8857870	5894853.5	23.2	65.14	60.05	86.72	93.06	96.11	0.21	3810	4.25	71	11	51874	16.23	5.9	50	47	52	113.4	290	78
5	5	25	South America	Brazil	186000000	157000000	7.5	72.04	56.6	88.62	88.41	97.9	0.22	8700	3.48	371	26	560725	12.79	3.7	19	17	21	79.4	110	77
6	3	28	Africa	Burkina Faso	13500000	2549805.5	27.2	51.88	39.51	23.55	31.44	26.48	0.08	1130	3.99	27	9	1260191	31.49	35.2	122	117	126	201.5	700	71
7	7	30	South East Asia	Cambodia	13600000	2749235	66	58.98	41.71	73.61	84.68	78.9	0.03	1550	1.55	28.57	1	75208	5.62	28.4	65	58	71	111	540	93
8	5	38	South America	Colombia	43000000	32700000	7	72.59	56.23	92.85	92.78	98.37	0.21	6130	6.19	201	12	327922	19.17	5.1	17	14	20	32.6	130	71
9	3	44	Africa	Cote d'Ivoire	17300000	8363115.5	14.8	47.95	44.58	48.73	60.84	52.13	0.17	1580	0.84	34	4	1279039	16.3	18.2	90	74	105	196.8	810	75
10	3	59	Africa	Ethiopia	73100000	12000000	23	52.39	29.97	35.9	50	38.5	0.2	630	2.99	6	2	5090927	22.11	34.6	77	67	87	135	720	78

Showing 1 to 10 of 27 entries

Previous1 2 3Next

También podemos “filtrar” las observaciones que no estén completas en variables seleccionadas (infant_mortality_rate :infant_mortality_rate_males).

who_complete2 <- drop_na(who, infant_mortality_rate:infant_mortality_rate_males)

Show entries

Search:

	continent_id	country_id	continent	country	population	urban_population	pop_under_poverty_line	life_expectancy_birth	inequality_index	literacy_rate	literacy_rate_males	literacy_rate_females	co2_economic_output	gni_per_capita	health_expenditure_gdp	health_expenditure_person	hospital_beds	children_out_school_primary	expenditure_student_primary	malnutrition_weight_age	infant_mortality_rate	infant_mortality_rate_females	infant_mortality_rate_males	under_5_mortality_rate	maternal_mortality_rate	tb_treatment_success
1	1	1	Eastern Mediterranean	Afghanistan	29900000	5740436		43.4		28	43.14	18.39	0.04		1.04	20	4				165	154	176		1800	90
2	2	2	Europe	Albania	3563112	1431793.9	2	76.23	31.1	98.71	99.19	99.5	0.22	6000	2.62	169	30	15182	7.78	17	15	14	15		92	77
3	3	3	Africa	Algeria	32500000	20800000		71.97	35.3	69.87	79.57	86.13	1.02	5940	2.64	108	17	38931	11.31	10.2	33	31	36		180	87
4	2	4	Europe	Andorra													26				3	2	3			80
5	3	5	Africa	Angola	11800000	8578749		42.3		67.41	82.9	63.18	0.16	3890	1.47	36	1			27.5	154	147	161		1400	72
6	4	6	North and Central America	Antigua and Barbuda	68722	32468.25							0.31	15130	3.24	503	24				10	9	11			100
7	5	7	South America	Argentina	39500000	34900000	6.6	75.08	51.32	97.19	97.19	99.13	0.37	11670	4.48	484	41	32669	11.32	2.3	14	13	16		77	53
8	2	8	Europe	Armenia	2982904	1934320.8	2	71.82	33.77	99.4	99.67	99.86	0.33	4950	1.78	88	44	18327	4.39	4.2	21	20	23	42	76	72
9	6	9	Western Pacific	Australia	20100000	18000000		81.19	35.19				0.48	33940	5.9	3181	40	61880	15.93		5	4	6		4	80
10	2	10	Europe	Austria	8184691	5433978		79.66	29.15				0.25	36040	7.72	3788	76	11081	22.52		4	3	4		4	75

Showing 1 to 10 of 193 entries

Previous1 2 3 4 5…20Next

Otros operadores útiles que pueden ser usados junto con la función filter():

==, >, >=, etc.
&, |, !, or()
is.na()
near()
%in%

3.2.3 Verbo mutate()

La función mutate() nos permite realizar operaciones con las variables y almacenar los resultados en la misma o una nueva variable.

Podemos calcular la población rural como la diferencia entre la población total (population) y la población urbana (urban_population) por país.

who_rural <- mutate(who, rural_population = population - urban_population)

Show entries

Search:

	continent	country	population	urban_population	rural_population
1	Eastern Mediterranean	Afghanistan	29900000	5740436	24159564
2	Europe	Albania	3563112	1431793.9	2131318.1
3	Africa	Algeria	32500000	20800000	11700000
4	Europe	Andorra
5	Africa	Angola	11800000	8578749	3221251
6	North and Central America	Antigua and Barbuda	68722	32468.25	36253.75
7	South America	Argentina	39500000	34900000	4600000
8	Europe	Armenia	2982904	1934320.8	1048583.2
9	Western Pacific	Australia	20100000	18000000	2100000
10	Europe	Austria	8184691	5433978	2750713

Showing 1 to 10 of 202 entries

Previous1 2 3 4 5…21Next

Nota

En este caso, al realizar este cálculo en esta base de datos algunas poblaciones rurales son negativas. Esto puede deberse, entre otras cosas, a una mala digitación de la base, a una corrupción de los datos durante su almacenamiento o escritura, o a la fuente de los datos (ej. la población total puede tener un origen en un censo y la población urbana puede ser una estimación en base a un modelo).

También podemos utilizar la función if_else() para definir reglas de decisión:

who_literacy <- mutate(who, literacy_cat = if_else(literacy_rate > 70, "Alta", "Baja"))

Show entries

Search:

	country	literacy_rate	literacy_cat
1	New Zealand
2	Benin	34.66	Baja
3	Malta	87.87	Alta
4	Chile	95.72	Alta
5	Jordan	91.13	Alta
6	Macau	39.13	Baja
7	Eritrea
8	Guatemala	69.1	Baja
9	Paraguay	93.49	Alta
10	Gabon	84.02	Alta

Showing 1 to 10 of 20 entries

Previous1 2Next

También podemos categorizar una variable continua usando la función ntile() para crear percentiles:

who_literacy2 <- mutate(who, literacy_cat = ntile(literacy_rate, 10))

Show entries

Search:

	country	literacy_rate	literacy_cat
1	Namibia	85.04	6
2	Mexico	91.63	7
3	Antigua and Barbuda
4	Honduras	80.01	4
5	Sweden
6	United Republic of Tanzania	69.43	3
7	Korea, Republic of
8	Guatemala	69.1	3
9	The former Yugoslav Republic of Macedonia	96.13	8
10	Uganda	66.81	3

Showing 1 to 10 of 20 entries

Previous1 2Next

En el caso que se quisiera crear una variable a partir de más de una condición, podemos usar la función case_when(). Por ejemplo, si quisiéramos crear las categorías de alfabetismo Baja, Moderada, Alta y Muy Alta, con case_when() sería de la siguiente manera:

who_literacy_cat <- mutate(
  who,
  literacy_cat = case_when(
    literacy_rate < 70 ~ "Baja",
    literacy_rate >= 70 & literacy_rate < 85 ~ "Moderada",
    literacy_rate >= 85 & literacy_rate < 95 ~ "Alta",
    literacy_rate >= 95 ~ "Muy Alta"
  )
)

Show entries

Search:

	country	literacy_rate	literacy_cat
1	Finland
2	Sierra Leone	34.83	Baja
3	Venezuela	92.98	Alta
4	Togo	53.16	Baja
5	Swaziland	79.56	Moderada
6	Guinea	29.48	Baja
7	Gabon	84.02	Moderada
8	Madagascar	70.68	Moderada
9	Morocco	52.31	Baja
10	Croatia	98.15	Muy Alta

Showing 1 to 10 of 20 entries

Previous1 2Next

En case_when(), para indicar “en cualquier otro caso”, se usará el argumento .default. Por ejemplo, se podría no haber mencionado la última condición y señalar que cualquier otro caso será “Muy alta”.

who_literacy_cat <- mutate(
  who,
  literacy_cat = case_when(
    literacy_rate < 70 ~ "Baja",
    literacy_rate >= 70 & literacy_rate < 85 ~ "Moderada",
    literacy_rate >= 85 & literacy_rate < 95 ~ "Alta",
    .default = "Muy Alta"
  )
)

Recientemente se añadió la función case_match() para cuando se necesite hacer múltiples comparaciones, se evite mencionar constantemente el nombre de variable como sucede con literacy_rate en el anterior ejemplo.

3.2.4 Verbo summarise()

La función summarise() nos permite obtener medidas de resumen de las variables en el conjunto de datos.

Debido a que la variable population tiene datos vacíos (NA), se utiliza el argumento na.rm = T para excluirlos del cómputo de las medidas de resumen.

who_poptot <- summarise(who, pop_tot = sum(population, na.rm = TRUE))

	pop_tot
1	6034224560

Se puede definir más de una medida de resumen.

who_s <- summarise(
  who,
  pop_tot = sum(population, na.rm = TRUE), 
  m_life_exp = mean(life_expectancy_birth, na.rm = TRUE)
)

	pop_tot	m_life_exp
1	6034224560	67.46779761904762

Otras medidas de resumen del paquete básico de R que pueden ser usadas en conjunto con summarise() son:

min()
max()
sum()
var()
sd()
median()
mean()
lenght()
IQR()

Otras funciones que incluye dplyr:

3.2.5 Verbo group_by()

La función group_by() nos permite crear grupos de observaciones los cuales se identifican por una o más variables.

who_group <- group_by(who, continent)

Show entries

Search:

	continent_id	country_id	continent	country	population	urban_population	pop_under_poverty_line	life_expectancy_birth	inequality_index	literacy_rate	literacy_rate_males	literacy_rate_females	co2_economic_output	gni_per_capita	health_expenditure_gdp	health_expenditure_person	hospital_beds	children_out_school_primary	expenditure_student_primary	malnutrition_weight_age	infant_mortality_rate	infant_mortality_rate_females	infant_mortality_rate_males	under_5_mortality_rate	maternal_mortality_rate	tb_treatment_success
1	1	1	Eastern Mediterranean	Afghanistan	29900000	5740436		43.4		28	43.14	18.39	0.04		1.04	20	4				165	154	176		1800	90
2	2	2	Europe	Albania	3563112	1431793.9	2	76.23	31.1	98.71	99.19	99.5	0.22	6000	2.62	169	30	15182	7.78	17	15	14	15		92	77
3	3	3	Africa	Algeria	32500000	20800000		71.97	35.3	69.87	79.57	86.13	1.02	5940	2.64	108	17	38931	11.31	10.2	33	31	36		180	87
4	2	4	Europe	Andorra													26				3	2	3			80
5	3	5	Africa	Angola	11800000	8578749		42.3		67.41	82.9	63.18	0.16	3890	1.47	36	1			27.5	154	147	161		1400	72
6	4	6	North and Central America	Antigua and Barbuda	68722	32468.25							0.31	15130	3.24	503	24				10	9	11			100
7	5	7	South America	Argentina	39500000	34900000	6.6	75.08	51.32	97.19	97.19	99.13	0.37	11670	4.48	484	41	32669	11.32	2.3	14	13	16		77	53
8	2	8	Europe	Armenia	2982904	1934320.8	2	71.82	33.77	99.4	99.67	99.86	0.33	4950	1.78	88	44	18327	4.39	4.2	21	20	23	42	76	72
9	6	9	Western Pacific	Australia	20100000	18000000		81.19	35.19				0.48	33940	5.9	3181	40	61880	15.93		5	4	6		4	80
10	2	10	Europe	Austria	8184691	5433978		79.66	29.15				0.25	36040	7.72	3788	76	11081	22.52		4	3	4		4	75

Showing 1 to 10 of 202 entries

Previous1 2 3 4 5…21Next

A simple vista, podría parecer que no ha ocurrido nada; sin embargo, podemos observar que ahora el dataframe muestra el siguiente atributo (attr): “groups”.

Usualmente, esta función es usada en conjunto con summarise para obtener las medidas de resumen por grupos.

who_summ <- summarise(
  who_group,
  pop_tot = sum(population, na.rm = TRUE),
  m_life_exp = mean(life_expectancy_birth, na.rm = TRUE)
)

Show entries

Search:

	continent	pop_tot	m_life_exp
1	Africa	761487060	52.86977777777778
2	Eastern Mediterranean	178209382	70.42944444444444
3	Europe	704276358	75.01809523809524
4	North and Central America	435212957	77.77
5	South America	411922520	72.3428
6	South East Asia	2749981397	65.83333333333333
7	Western Pacific	793134886	72.9924

Showing 1 to 7 of 7 entries

Previous1Next

Se puede usar más de una variable para la agrupación. Calcularemos el total de población y promedio de esperanza de vida al nacer por cada continente (continent) y categoría de alfabetismo (literacy_cat) usando el conjunto de datos who_literacy_cat donde hemos creado las categorías.

who_cont_lit <- group_by(who_literacy_cat, continent, literacy_cat)

who_cont_lit_s <- summarise(
  who_cont_lit,
  pop_tot = sum(population, na.rm = TRUE), 
  m_life_exp = mean(life_expectancy_birth, na.rm = TRUE)
)

Show entries

Search:

	continent	literacy_cat	pop_tot	m_life_exp
1	Europe	Alta	80300000	74.86000000000001
2	South East Asia	Alta	1320100000	72.36500000000001
3	Eastern Mediterranean	Alta	16370426	75.88285714285715
4	Africa	Alta	14759726	48.72666666666667
5	South East Asia	Baja	1415932291	64.21
6	Western Pacific	Muy Alta	257359298	74.53076923076924
7	Western Pacific	Moderada	383041	70.365
8	North and Central America	Muy Alta	329212957	78.40333333333334
9	Africa	Moderada	107324278	54.534
10	South America	Moderada	22574496	72.87833333333333

Showing 1 to 10 of 20 entries

Previous1 2Next

Para eliminar la agrupación podemos utilizar la función ungroup()

3.2.6 Verbo arrange()

La función arrange() nos permite ordenar las filas del conjunto de datos con respecto a una o más variables.

Ordenaremos el conjunto de datos who en función a la población total. Utilizamos la función desc() para especificar si queremos que sea de forma descendiente.

who_ord <- arrange(who, desc(population))

Show entries

Search:

	continent	country	population
1	South East Asia	China	1300000000
2	South East Asia	India	1080000000
3	North and Central America	United States	296000000
4	Western Pacific	Indonesia	218000000
5	South America	Brazil	186000000
6	South East Asia	Pakistan	162000000
7	South East Asia	Bangladesh	144000000
8	Africa	Nigeria	129000000
9	Western Pacific	Japan	127000000
10	North and Central America	Mexico	106000000

Showing 1 to 10 of 202 entries

Previous1 2 3 4 5…21Next

3.2.7 Verbo sample_n()

La función sample_n() nos permite crear una muestra aleatoria de nuestro conjunto de datos. Debemos especificar el tamaño (size) de la muestra.

who_sample <- sample_n(who, size = 30)

Show entries

Search:

	continent_id	country_id	continent	country	population	urban_population	pop_under_poverty_line	life_expectancy_birth	inequality_index	literacy_rate	literacy_rate_males	literacy_rate_females	co2_economic_output	gni_per_capita	health_expenditure_gdp	health_expenditure_person	hospital_beds	children_out_school_primary	expenditure_student_primary	malnutrition_weight_age	infant_mortality_rate	infant_mortality_rate_females	infant_mortality_rate_males	under_5_mortality_rate	maternal_mortality_rate	tb_treatment_success
1	2	45	Europe	Croatia	4495904	2510492.8	2	75.53	29.03	98.15	99.32	99.65	0.42	13850	6.02	651.44	55	14160	22.99		5	5	5		7
2	3	39	Africa	Comoros	671247	222181.12		64.61					0.14	1140	1.6	14	17	49413	9.32	25	51	46	57	122.6	400	91
3	2	174	Europe	Sweden	9001774	7598241.5		80.75	25				0.19	34310	7.53	3598		19605	25.67		3	3	3		3	64
4	1	82	Eastern Mediterranean	Iran (Islamic Republic of)		46200000			38.35	82.44	88.01	96.74	0.7	9800	4.35	212	17	304552	9.76		30	26	34		140	83
5	3	34	Africa	Central African Republic		1592743			61.33	48.57	64.77	46.87	0.09	690	1.5	13	12	372457	10.49	21.8	114	110	118	178.4	980	65
6	3	107	Africa	Madagascar	18000000	4996213	61	58.9	47.45	70.68	76.53	68.19	0.18	870	2	9	3	176074	8.43	36.8	72	66	78	120	510	74
7	1	176	Eastern Mediterranean	Syrian Arab Republic		9560304				80.84	87.76	90.22	0.94	4110	2.12	61.36	14	70923	13.64		12	9	14		130	89
8	5	75	South America	Haiti	8121622	3606961	53.9	60.22	59.21				0.16	1070	3.18	27.61	8		9.14	18.9	60	55	65	114.1	670	81
9	2	178	Europe	Tajikistan	7163506	1617902.6	7.4	66.47	33.59	99.45	99.68	99.85	0.55	1560	1.14	18	61	17361	8.81		56	49	63		170	86
10	6	77	Western Pacific	Hong Kong	6898686	6813200		82.03	43.44				0.14					12271	14.86

Showing 1 to 10 of 30 entries

Previous1 2 3Next

3.3 Inspección de datos

Existen varias formas de inspeccionar de forma rápida nuestro conjunto de datos. Aquí algunos paquetes para realizarlo:

3.3.1 Codebook

Para explorar las variables de nuestro conjunto de datos de forma mas amigable podemos utilizar el paquete codebook (Arslan 2020), lanzado en enero del 2020. Este paquete tiene una interfaz gráfica que permite buscar y ver metadatos y medidas de resumen de las variables.

library(codebook)

codebook_browser(who)

Cuando el archivo de datos es importado de un archivo de STATA, SPSS o SAS y contiene metadatos como nombre de las variables, etiqueta de valores, etc., estos podrán ser visualizados directamente con codebook.

3.3.2 Skimr

Otro paquete útil para una inspección rápida es skimr, que cumple con los Principles of Least Surprise (POLA).

library(skimr)
skim(who)

Data summary
Name	who
Number of rows	202
Number of columns	26
_______________________
Column type frequency:
character	2
numeric	24
________________________
Group variables	None

Variable type: character

skim_variable	n_missing	complete_rate	min	max	empty	n_unique	whitespace
continent	0	1	6	25	0	7	0
country	0	1	4	41	0	202	0

Variable type: numeric

skim_variable	n_missing	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
continent_id	0	1.00	3.58	1.81	1.00	2.00	3.00	5.00	7.00	▇▅▁▃▅
country_id	0	1.00	101.50	58.46	1.00	51.25	101.50	151.75	202.00	▇▇▇▇▇
population	28	0.86	34679451.49	131601389.69	65365.00	2246777.50	7309125.50	22750000.00	1300000000.00	▇▁▁▁▁
urban_population	14	0.93	16657626.77	50948665.82	15456.00	917162.34	3427660.80	9837113.25	527000000.00	▇▁▁▁▁
pop_under_poverty_line	130	0.36	16.02	18.71	2.00	2.00	7.45	23.05	70.80	▇▂▁▁▁
life_expectancy_birth	34	0.83	67.47	11.31	40.68	59.47	71.33	76.02	82.27	▂▃▃▇▇
inequality_index	72	0.64	40.74	9.44	24.70	34.00	39.45	47.01	74.33	▆▇▅▂▁
literacy_rate	65	0.68	77.98	20.58	23.55	67.45	84.68	93.83	99.80	▁▂▂▃▇
literacy_rate_males	66	0.67	82.68	17.08	31.44	74.00	88.32	95.93	99.81	▁▁▂▃▇
literacy_rate_females	70	0.65	83.31	21.82	16.86	71.08	95.46	98.84	99.95	▁▁▁▂▇
co2_economic_output	29	0.86	0.42	0.35	0.01	0.19	0.31	0.50	2.81	▇▂▁▁▁
gni_per_capita	24	0.88	11250.11	12586.75	260.00	2112.50	6175.00	14502.50	60870.00	▇▂▁▁▁
health_expenditure_gdp	22	0.89	3.63	2.16	0.26	1.96	3.19	4.68	11.73	▇▇▃▂▁
health_expenditure_person	22	0.89	693.04	1312.98	0.23	33.25	157.00	486.75	6657.00	▇▁▁▁▁
hospital_beds	22	0.89	32.17	25.09	1.00	12.00	26.00	48.25	141.00	▇▅▂▁▁
children_out_school_primary	38	0.81	360414.70	1109033.85	37.00	8656.50	34216.50	223811.00	8096824.00	▇▁▁▁▁
expenditure_student_primary	55	0.73	14.59	6.90	0.91	9.37	14.07	19.19	37.26	▃▇▅▂▁
malnutrition_weight_age	101	0.50	16.79	11.77	1.10	6.10	15.30	24.40	47.60	▇▅▃▂▂
infant_mortality_rate	9	0.96	38.04	38.15	2.00	9.00	23.00	59.00	165.00	▇▂▂▁▁
infant_mortality_rate_females	9	0.96	34.90	35.62	2.00	9.00	20.00	54.00	154.00	▇▂▂▁▁
infant_mortality_rate_males	9	0.96	41.01	40.77	3.00	9.00	24.00	63.00	176.00	▇▂▂▁▁
under_5_mortality_rate	141	0.30	114.94	57.72	29.60	69.40	111.00	157.40	253.20	▇▇▅▅▁
maternal_mortality_rate	33	0.84	322.37	421.09	1.00	15.00	130.00	510.00	2100.00	▇▂▁▁▁
tb_treatment_success	25	0.88	77.59	14.76	0.00	71.00	80.00	87.00	100.00	▁▁▁▆▇

3.4 Pipelines

Ahora que ya tenemos un mayor conocimiento de las funciones básicas y elementales que necesitamos para el manejo de datos, volveremos a ver las tres alternativas explicadas inicialmente, para observar el impacto que tiene el uso de pipes (%>%) en la escritura y lectura de código. El objetivo de la rutina de análisis será quitar los valores perdidos que se encuentren en las variables population, life_expectancy_birth y literacy_rate de la data who, dividir la tasa de alfabetización en cinco grupos, seleccionar algunas variables de importancia, y configurar análisis por agrupación de continente y grupo de alfabetización, para posteriormente obtener un resumen de la cantidad de casos, total de población y promedio de esperanza de vida. Finalmente, estos resultados serán ordenados de mayor a menor población total y solo se mostrará los casos en que el promedio de la esperanza de vida sea mayor a 70.

3.4.1 Objetos múltiples

Observaremos que ahora, debido a la cantidad de procesos intermedios que tenemos que realizar, la cantidad de objetos a crear es considerablemente mayor.

who_complete <- drop_na(who, population, life_expectancy_birth, literacy_rate)
who_literacy <- mutate(who_complete, 
                     literacy_cat = ntile(literacy_rate, 5))
who_vars <- select(who_literacy, continent, country, population, life_expectancy_birth, literacy_cat)
who_group <- group_by(who_vars, continent, literacy_cat)
who_summ <- summarise(who_group, 
                      n = n(),
                      pop_tot = sum(population), 
                      m_life_exp = mean(life_expectancy_birth))
who_ord <- arrange(who_summ, desc(pop_tot))
who_final <- filter(who_ord, m_life_exp > 70)

Show entries

Search:

	continent	literacy_cat	n	pop_tot	m_life_exp
1	South East Asia	4	3	1320449106	70.82333333333334
2	Western Pacific	4	8	505614575	72.43
3	Europe	5	19	210316695	71.80263157894737
4	North and Central America	4	1	106000000	75.87
5	South America	4	7	86342433	74.44857142857143
6	Europe	3	1	69700000	71.54
7	Europe	4	3	61600000	79.21333333333334
8	South America	5	4	55290986	74.69749999999999
9	Eastern Mediterranean	3	8	40098512	75.13875
10	South America	2	6	24612961	74.05499999999999

Showing 1 to 10 of 13 entries

Previous1 2Next

En un proyecto real es probable que las manipulaciones requeridas sean incluso mayores y en múltiples conjuntos de datos, por lo que esta aproximación no es ideal.

3.4.2 Funciones anidadas

Otra opción es el uso de funciones anidadas, es decir, usar funciones dentro de otras funciones, tal y como se muestra en el ejemplo:

who_nested <- filter(
  arrange(
    summarise(
      group_by(
        select(
          mutate(
            drop_na(who, 
                    population, life_expectancy_birth, literacy_rate),
            literacy_cat = ntile(literacy_rate, 5)
          ), 
          continent, country, population, life_expectancy_birth, literacy_cat
        ), 
        continent, literacy_cat
      ),
      n = n(),
      pop_tot = sum(population),
      m_life_exp = mean(life_expectancy_birth)
    ), 
    desc(pop_tot)
  ), 
  m_life_exp > 70
)

Show entries

Search:

	continent	literacy_cat	n	pop_tot	m_life_exp
1	South East Asia	4	3	1320449106	70.82333333333334
2	Western Pacific	4	8	505614575	72.43
3	Europe	5	19	210316695	71.80263157894737
4	North and Central America	4	1	106000000	75.87
5	South America	4	7	86342433	74.44857142857143
6	Europe	3	1	69700000	71.54
7	Europe	4	3	61600000	79.21333333333334
8	South America	5	4	55290986	74.69749999999999
9	Eastern Mediterranean	3	8	40098512	75.13875
10	South America	2	6	24612961	74.05499999999999

Showing 1 to 10 of 13 entries

Previous1 2Next

Aunque ya no se crean múltiples objetos, su lectura, escritura y depuración siguen siendo un problema importante al momento de codificar.

3.4.3 Operador pipe (`%>%`)

Como ya lo mencionamos, el uso del operador pipe (%>%) nos permite realizar análisis con una secuencia que se siente más “natural”.

who_pipe <- who %>% 
  drop_na(population, life_expectancy_birth, literacy_rate) %>%
  mutate(literacy_cat = ntile(literacy_rate, 5)) %>%
  select(continent, country, population, 
         life_expectancy_birth, literacy_cat) %>%
  group_by(continent, literacy_cat) %>%
  summarise(
    n = n(), 
    pop_tot = sum(population), 
    m_life_exp = mean(life_expectancy_birth)
  ) %>%
  arrange(desc(pop_tot)) %>%
  filter(m_life_exp > 70)

Show entries

Search:

	continent	literacy_cat	n	pop_tot	m_life_exp
1	South East Asia	4	3	1320449106	70.82333333333334
2	Western Pacific	4	8	505614575	72.43
3	Europe	5	19	210316695	71.80263157894737
4	North and Central America	4	1	106000000	75.87
5	South America	4	7	86342433	74.44857142857143
6	Europe	3	1	69700000	71.54
7	Europe	4	3	61600000	79.21333333333334
8	South America	5	4	55290986	74.69749999999999
9	Eastern Mediterranean	3	8	40098512	75.13875
10	South America	2	6	24612961	74.05499999999999

Showing 1 to 10 of 13 entries

Previous1 2Next

En los tres casos, los conjuntos de datos que se generan son idénticos:

identical(who_pipe, who_nested)

[1] TRUE

identical(who_pipe, who_final)

[1] TRUE

identical(who_nested, who_final)

[1] TRUE

Recordemos que el operador (%>%) puede leerse como “y luego… / entonces”. En nuestro ejemplo, estaríamos diciendo:

“Del conjunto de datos who, eliminar las observaciones con datos incompletos de las variables population, life_expectancy_birth y literacy_rate, luego crear una variable con los quintiles de tasa de alfabetismo (literacy_rate), luego seleccionar las variables de interés, luego agrupar las observaciones (paises) de acuerdo a los continentes y quintiles de alfabetismo, luego calcular estas medidas de resumen (total de paises, suma de población y promedio de esperanza de vida) para cada grupo, luego ordenar las observaciones con respecto a la suma de la población en orden decreciente y luego filtrar aquellos grupos con un promedio de esperanza de vida mayor a 70%. ”

También es importante mencionar que, al usar el operador pipe (%>%), solo se necesita mencionar el dataframe del cual se parte en el inicio del pipe.

3.5 Ejercicios

3.5.1 Parte 1

Ejercicio 1

Realizar las siguientes operaciones secuenciales sobre la data who:

Seleccionar las variables continente (continent), país (country), población (population) y la tasa de mortalidad materna por cada 100000 nacimientos vivos (maternal_mortality_rate).
Luego, filtrar los países que tienen una población mayor a 30 millones.
Por último, ordenar el conjunto de datos según la tasa de mortalidad materna de menor a mayor.

Una vez que se identifique las funciones necesarias para resolver los 3 puntos, el código debería ser:

# A tibble: 34 × 3
   country                          population maternal_mortality_rate
   <chr>                                 <dbl>                   <dbl>
 1 Democratic Republic of the Congo   60800000                    1100
 2 Nigeria                           129000000                    1100
 3 United Republic of Tanzania        36800000                     950
 4 Ethiopia                           73100000                     720
 5 Bangladesh                        144000000                     570
 6 Kenya                              33800000                     560
 7 India                            1080000000                     450
 8 Sudan                              40200000                     450
 9 Indonesia                         218000000                     420
10 South Africa                       44300000                     400
# ℹ 24 more rows

Ejercicio 2

Usar el conjunto de datos resultante del ejercicio anterior para crear una nueva variable nivel con la función case_when() definiendo las siguientes categorías:

Los países con una tasa de mortalidad materna menor a 12 tienen una “Tasa de mortalidad materna baja”,
los países con una tasa de mortalidad materna mayor a 415 tienen una “Tasa de mortalidad materna alta”.
En otro caso, asignar una “Tasa de mortalidad materna media”.

Por último, seleccionar el país, la población y el nivel de la tasa de mortalidad. Las 3 primeras filas resultantes deberían ser las siguientes:

# A tibble: 34 × 3
   country                          population nivel                           
   <chr>                                 <dbl> <chr>                           
 1 Democratic Republic of the Congo   60800000 Tasa de mortalidad materna alta 
 2 Nigeria                           129000000 Tasa de mortalidad materna alta 
 3 United Republic of Tanzania        36800000 Tasa de mortalidad materna alta 
 4 Ethiopia                           73100000 Tasa de mortalidad materna alta 
 5 Bangladesh                        144000000 Tasa de mortalidad materna alta 
 6 Kenya                              33800000 Tasa de mortalidad materna alta 
 7 India                            1080000000 Tasa de mortalidad materna alta 
 8 Sudan                              40200000 Tasa de mortalidad materna alta 
 9 Indonesia                         218000000 Tasa de mortalidad materna alta 
10 South Africa                       44300000 Tasa de mortalidad materna media
# ℹ 24 more rows

3.5.2 Parte 2

Exploraremos ahora un nuevo conjunto de datos. El archivo de datos dhs.csv contiene información relacionada a la salud materno-infantil y condiciones sociodemográficas en Peru. En este conjunto de datos, cada observación (una madre que tiene un hijo dentro del periodo de estudio) esta agrupada en comunidades. Este conjunto de datos es una submuestra de la Encuesta Demográfica y de Salud Familiar (ENDES).

dhs <- read_csv("data/dhs.csv")

Ejercicio 1

A) Describir en lenguaje natural qué procedimientos se están llevando a cabo en el siguiente código.

dhs_pipe2 <- dhs %>% 
  select(wealth_ind, literacy, educ_yrs, death_1m) %>%
  drop_na() %>%
  group_by(wealth_ind, literacy) %>%
  summarise(median_edu = median(educ_yrs), 
            tot_death = sum(death_1m), 
            pop = n()) %>%
  filter(tot_death>10)

B) ¿Qué conclusiones podría sacar de este pipeline?

Ejercicio 2

A) Escribir el pipeline para la siguiente tarea de manejo de datos.

Del conjunto de datos dhs, filtrar las observaciones de las madres menores de 20 años, luego retirar todas las observaciones con valores ausentes (NA) en las variables edad, edad de pareja y seguro, luego calcular la diferencia entre la edad de la participante y la de su pareja, luego agrupar de acuerdo a si tienen seguro y acceso a agua potable segura, y luego calcular el promedio de hijos de las madres en cada una de estas categorías y la diferencia promedio de edad con sus parejas.

B) ¿Qué conclusiones podría sacar de este pipeline?

3.1 Paquetes y data

3.2 Paquete dplyr

3.2.1 Verbo select()

3.2.2 Verbo filter()

3.2.3 Verbo mutate()

3.2.4 Verbo summarise()

3.2.5 Verbo group_by()

3.2.6 Verbo arrange()

3.2.7 Verbo sample_n()

3.3 Inspección de datos

3.3.1 Codebook

3.3.2 Skimr

3.4 Pipelines

3.4.1 Objetos múltiples

3.4.2 Funciones anidadas

3.4.3 Operador pipe (%>%)

3.5 Ejercicios

3.5.1 Parte 1

Ejercicio 1

Ejercicio 2

3.5.2 Parte 2

Ejercicio 1

Ejercicio 2

3.4.3 Operador pipe (`%>%`)