Una función es como una receta de cocina. En programación, esa receta realiza una tarea específica, y como en el caso de las recetas colunarias, las funciones tienen ingredientes (datos), pasos (instrucciones) y un resultado final (el plato deseado). En En este caso, nuestra función se llamará caracterizame_pobreza y su tarea es caracterizar grupos específicos con base en datos sobre pobreza.
Ciencia de datos en las ciencias sociales y las humanidades
Expongo diversos proyectos de ciencias de datos en el contexto de las ciencias sociales (computational social sciences) y las humanidades (digital humanities)
lunes, 11 de noviembre de 2024
Creando mi primer mini-programa en R.
Lab 01. Caracterización de personas en situación de pobreza según la mediana.
martes, 5 de noviembre de 2024
Lab01. Cluster analisis. Diagnóstico pobreza nbi
Beatriz Valdez
2024-11-01
Introducción
Resumamos lo que hemos hecho hasta este momento. En nuestro estudio sobre los patrones de pobreza en el pueblo de Milenia, hemos explorado diversas dimensiones del bienestar para identificar a la población en situación de vulnerabilidad. Como criterios de medición, consideramos tanto los ingresos monetarios como las necesidades básicas insatisfechas (NBI).
Medición basada en ingresos:
- Línea de pobreza con base en la mediana: Esta línea se establece tomando como línea el valor medio de los ingresos de la población. Los hogares con ingresos iguales o inferiores a la mediana son clasificados como “pobres”. Línea de pobreza basada en la canasta alimentaria: Se determina el 1. costo de una canasta básica de alimentos que garantice una nutrición adecuada. Los hogares con ingresos iguales o inferiores al costo de esta canasta se consideran en situación de “pobreza extrema”. Aquellos cuyos ingresos superan el costo de la canasta alimentaria pero no duplican este valor se ubican en situación de “pobreza absoluta”. Los casos en los que los ingresos superan el valor de la canasta básica se consideran “no pobres”.
- Medición basada en necesidades básicas insatisfechas (NBI): Este enfoque evalúa el acceso a servicios esenciales y condiciones de vida adecuadas. Los indicadores más comunes incluyen:
- Educación: Asistencia escolar de niños entre 7 y 12 años.
- Vivienda: Hacinamiento y acceso a servicios básicos.
- Nivel de dependencia: Relacionado con la escolaridad del jefe de hogar y la proporción de miembros no trabajadores.
Antes de continuar, me aseguro de subir a la cónsola de R los paquetes que emplearé en este análisis:
####################### Paquetes necesarios: #######################
pacman::p_load(
tidyverse, # Es una colección de paquetes que te proporciona todas las herramientas necesarias para trabajar con datos en R.
readxl, # permite leer archivos de Excel (.xlsx y .xls) y convertirlos en data frames de R.
janitor, # ayuda a limpiar y organizar nuestros datos
flextable, # para hacer tablas para presentar en webs
officer # tiene algunas funciones para hacer tablas
)
Procedimiento de análisis:
Para aplicar estas metodologías a los datos de nuestra encuesta, hemos seguido los siguientes pasos:
Identificación de la variable ingreso: Se verificó la existencia y calidad de la información sobre los ingresos de los hogares encuestados.
Cálculo de la mediana: Se calculó el valor mediano de los ingresos para establecer la línea de pobreza mediana. Con esta opción, no es ninguna sorpresa, el 50% de los encuestados serán pobres y el otro 50%, “no pobre”.
Determinación del costo de la canasta alimentaria: Se obtuvo el valor de la canasta básica de alimentos. En análisis que se hacen con datos provenientes de áreas reales, el valor de la canasta alimentaria se determina a partir de datos de mercado o estudios especializados. En este ejercicio establecimos de forma arbitraria ese valor. Para obtener el valor de la canasta básica se múltiplica por dos el precio de la canasta alimentaria.
Clasificación de los hogares: Cada hogar será clasificado como pobre o no pobre según los criterios establecidos en cada método. El resultado obtenido después de aplicar estos métodos ha sido:
Pobreza calculada con base en la mediana:
Clasificación | n | % |
---|---|---|
NO POBRE | 50 | 50.0% |
POBRE | 50 | 50.0% |
Pobreza con base en la línea de pobreza de acuerdo con una canasta alimentaria:
Clasificación | n | % |
---|---|---|
NO POBRE | 15 | 15.0% |
POBREZA ABSOLUTA | 23 | 23.0% |
POBREZA EXTREMA | 62 | 62.0% |
Una vez obtenidos los resultados de los análisis de pobreza, tanto mediante el enfoque de Necesidades Básas Insatisfechas (NBI) como a través de la línea de pobreza basada en la canasta alimentaria, es fundamental construir un diagnóstico integral. Este diagnóstico permitirá trascender la mera clasificación dicotómica de ‘pobre’ y ‘no pobre’, y profundizar en las múltiples dimensiones de la pobreza. Al contrastar ambos métodos, podremos obtener una visión más completa de las carencias y vulnerabilidades de la población, lo cual resulta esencial para diseñar intervenciones públicas efectivas
Cálculo de la pobreza según NBI
Para estimar la prevalencia de pobreza en Milenia en este paso, se empleará el método de las Necesidades Básicas Insatisfechas (NBI). De acuerdo con la conceptualización teórica del NBI, un individuo se categoriza como pobre si presenta al menos una necesidad básica insatisfecha. Por el contrario, aquellos que satisfacen todas las necesidades básicas se clasifican como no pobres. En esta primera etapa del análisis, haré un ejercicio exploratorio en R, para probar el procedimiento que tengo en mente.El código debe permitir identificar a las personas que cumplen con los criterios de pobreza establecidos por este método.
Mi objetivo principal, el resultado que persigo, es crear un nuevo indicador de pobreza al que llamaré “pobreza_nbi”, combinando varias variables relacionadas con condiciones de vida básicas como la inasistencia escolar, el hacinamiento, la vivienda inadecuada y la alta dependencia económica. El código:
- Toma el data frame “encuesta”.
- Crea una nueva variable llamada pobreza_nbi sumando los valores de cuatro variables existentes relacionadas con las dimensiones del NBI.
- Extrae solo la nueva variable pobreza_nbi del data frame.
#Experimento para ver si el procedimiento que hago para
# obtener la variable pobreza_nbi
encuesta %>%
mutate(pobreza_nbi = inasistencia + hacinamiento +
vivienda_inadecuada +
alta_dependencia_econ
) %>% pull(pobreza_nbi) # con la funcion pull() hago que R me muestre solo el resultado de la variable "pobreza_nbi"
## [1] 3 0 0 2 2 0 0 0 2 0 2 0 2 3 1 1 2 2 2 2 1 0 2 2 3 2 3 3 2 2 3 1 0 2 2 1 2
## [38] 1 1 2 2 2 1 2 0 0 3 2 2 2 0 2 1 2 0 1 2 0 2 0 2 2 0 0 2 2 2 3 2 2 1 1 0 0
## [75] 0 1 2 0 2 2 1 2 0 2 2 1 1 1 1 2 0 1 1 2 0 4 1 0 1 2
Explicando el código paso a paso:
encuesta %>%:
- %>% es el operador pipe de R, que permite encadenar múltiples operaciones en una sola línea de código, haciendo que el código sea más legible y fácil de seguir. En este caso, estamos tomando el dataframe “encuesta” y pasando sus datos a la siguiente función (mutate).
mutate(pobreza_nbi = …):
- mutate() es una función de dplyr que crea nuevas variables, en este caso crea la variable “pobrezanbi” y si salvo el procedimiento, algo que no estoy haciendo en este momento, porque estoy experimentado para ver si obtengo el resultado que deseo, me lo agrega al dataframe que le indique. A la nueva variable llamada “pobreza_nbi” se le asigna el resultado de la suma de cuatro variables existentes:
- inasistencia,
- hacinamiento,
- vivienda_inadecuada,
- alta_dependencia_econ.
pull(pobreza_nbi): es otra función de dplyr que extrae una columna específica de un data frame y la convierte en un vector.pull() extrae la variable especificada (en este caso, “pobreza_nbi”), es decir, que obtenemos una lista de valores que corresponden al nuevo indicador de pobreza para cada individuo en la encuesta.
Dado que el resultado es tal como lo preveo, procedo a guardar la variable creada en mi data frame “encuesta”. Observe que para el paso siguiente ya no empleo la función pull().
encuesta <- encuesta %>%
mutate(pobreza_nbi = inasistencia + hacinamiento +
vivienda_inadecuada +
alta_dependencia_econ
)
Una vez construida la variable compuesta ‘pobreza_nbi’, se procedo a categorizar a los individuos o hogares en dos grupos mutuamente excluyentes: aquellos que se encuentran por debajo del umbral de pobreza multidimensional, clasificados como ‘pobres’, y aquellos que superan dicho umbral, considerados ‘no pobres’. Esta dicotomización permitirá realizar análisis más detallados sobre la distribución de la pobreza.
Muestro el resultado usando una tabla:
Clasificación | n | % |
---|---|---|
NO POBRES | 25 | 25.0% |
POBRE | 75 | 75.0% |
Los resultados de la medición de la pobreza en Milenia evidencian la sensibilidad de las estimaciones a la metodología empleada. Al aplicar el método de la mediana, el 50% de la población se clasifica como pobre. Sin embargo, al utilizar la línea de pobreza basada en la canasta alimentaria, esta proporción se eleva al 85%. Dentro de este último grupo, el 23% se encuentra en situación de pobreza absoluta y el 62% en pobreza extrema. Por su parte, el enfoque Necesidades Básicas Insatisfechas (NBI) arroja una tasa de pobreza del 75%. Esta disparidad en los resultados resalta la importancia de seleccionar cuidadosamente el método de medición y considerar las múltiples dimensiones de la pobreza.
Para debatir: + ¿Qué factores podrían explicar las diferencias observadas en las tasas de pobreza según el método utilizado? + ¿Cuál de los métodos presentados consideras más adecuado para medir la pobreza en Milenia y por qué? + ¿Qué otras dimensiones de la pobreza podrían considerarse además de las analizadas en estos ejercicios? + ¿Cómo influye el método seleccionado para la medición de la pobreza en la formulación de políticas públicas?
Diagnóstico
Una vez concluido el análisis de la pobreza mediante el método de la mediana, es imperativo profundizar en la caracterización de los grupos identificados. Si bien el hallazgo de que el 50% de la muestra se encuentra en situación de pobreza resulta significativo, es necesario trascender esta cifra y adentrarnos en las particularidades de cada grupo. Con el propósito de obtener un perfil más detallado de las personas clasificadas como pobres y no pobres, procederé a realizar un análisis descriptivo. A través de la construcción de tablas, identificaré las características sociodemográficas, económicas y de otra índole que me faciliten establecer distinciones entre ambos grupos (pobres y no pobres). Esta información puede ser de gran ayuda para diseñar intervenciones focalizadas y efectivas, orientadas a superar las condiciones de vulnerabilidad y promover el desarrollo en Milenia. humano
El paquete “flextable” nos ofrece una función muy interesante con la que podemos crear tablas de acuerdo con un criterio específico. Preste atención al procedimiento.
# filtro las personas que son pobres y creo un nuevo marco de datos
encuesta |>
filter(clasificacion == "pobre") -> pobres_mediana
# elaboro la tabla
pobres_mediana |>
select(sexo, edad, areas, indigena,alfabet, asiste, ingreso,
personas_habitacion, tipo_vivienda, conexion_agua_potable,
escolaridad_jefe_hogar, cuantas_personas_casa,
cuantos_trabajan) |>
summarizor(by= "sexo") |>
as_flextable()
Hombre | Mujer | ||||
---|---|---|---|---|---|
edad | Mean (SD) | 45.6 (29.7) | 44.2 (32.7) | ||
Median (IQR) | 55.0 (56.0) | 57.0 (60.0) | |||
Range | 1.0 - 94.0 | 1.0 - 93.0 | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
areas | Rural | 15 (51.72%) | 8 (38.10%) | ||
Urbana | 14 (48.28%) | 13 (61.90%) | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
indigena | No | 23 (79.31%) | 16 (76.19%) | ||
Si | 6 (20.69%) | 5 (23.81%) | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
alfabet | No | 6 (20.69%) | 5 (23.81%) | ||
Si | 20 (68.97%) | 14 (66.67%) | |||
Missing | 3 (10.34%) | 2 (9.52%) | |||
asiste | No | 21 (72.41%) | 18 (85.71%) | ||
Si | 5 (17.24%) | 1 (4.76%) | |||
Missing | 3 (10.34%) | 2 (9.52%) | |||
ingreso | Mean (SD) | 93.8 (63.1) | 85.2 (62.5) | ||
Median (IQR) | 77.0 (114.0) | 78.0 (94.0) | |||
Range | 15.0 - 216.0 | 1.0 - 205.0 | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
personas_habitacion | Mean (SD) | 3.5 (1.9) | 4.0 (2.1) | ||
Median (IQR) | 3.0 (2.0) | 3.0 (2.0) | |||
Range | 1.0 - 7.0 | 1.0 - 9.0 | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
tipo_vivienda | apartamento | 3 (10.34%) | 2 (9.52%) | ||
bohio | 6 (20.69%) | 6 (28.57%) | |||
churuata | 3 (10.34%) | 2 (9.52%) | |||
quinta | 3 (14.29%) | ||||
rancho | 17 (58.62%) | 8 (38.10%) | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
conexion_agua_potable | no | 24 (82.76%) | 13 (61.90%) | ||
si | 5 (17.24%) | 8 (38.10%) | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
escolaridad_jefe_hogar | 2do grado | 2 (6.90%) | 1 (4.76%) | ||
3er grado | 6 (20.69%) | 5 (23.81%) | |||
4to grado | 4 (13.79%) | 3 (14.29%) | |||
5to grado | 3 (10.34%) | 1 (4.76%) | |||
6to grado | 1 (4.76%) | ||||
8vo grDO | 1 (3.45%) | 1 (4.76%) | |||
9vno grado | 2 (9.52%) | ||||
bachillerato completo | 2 (9.52%) | ||||
terciaria | 1 (4.76%) | ||||
terciaria incomp | 1 (3.45%) | 1 (4.76%) | |||
1er grado | 5 (17.24%) | ||||
7mo grado | 2 (6.90%) | ||||
bachillerato incomp | 1 (3.45%) | ||||
Missing | 4 (13.79%) | 3 (14.29%) | |||
cuantas_personas_casa | Mean (SD) | 5.7 (3.3) | 6.0 (3.7) | ||
Median (IQR) | 5.0 (5.0) | 4.5 (3.8) | |||
Range | 1.0 - 10.0 | 2.0 - 13.0 | |||
Missing | 0 (0.00%) | 1 (4.76%) | |||
cuantos_trabajan | Mean (SD) | 0.5 (0.5) | 0.2 (0.4) | ||
Median (IQR) | 0.0 (1.0) | 0.0 (0.0) | |||
Range | 0.0 - 1.0 | 0.0 - 1.0 | |||
Missing | 2 (6.90%) | 1 (4.76%) |
El análisis de la tabla revela una heterogeneidad significativa en la composición de la población en situación de pobreza, tanto en términos de sexo como de edad. Si bien el 58% de los individuos en esta condición son hombres, la distribución por edad es notablemente dispersa en ambos géneros.
En el caso de los hombres, la edad promedio se sitúa en 45.6 años, con una desviación estándar de 29.7 años. Esta alta dispersión indica una amplia variabilidad en las edades de los hombres pobres, con una presencia considerable tanto de jóvenes como de adultos mayores. La edad mediana corrobora esta heterogeneidad. Por su parte, las mujeres pobres presentan una distribución etaria aún más dispersa.
En cuanto al lugar de residencia, los hombres pobres se concentran mayoritariamente en áreas rurales, mientras que las mujeres tienden a habitar en zonas urbanas. No obstante, tanto hombres como mujeres pobres exhiben niveles similares de alfabetización y asistencia educativa.
Respecto a los ingresos, se observa una considerable heterogeneidad en ambos sexos. Sin embargo, se detecta una cierta asimetría: el ingreso mínimo de los hombres es significativamente superior al de las mujeres (15 milenios vs. 1 milenio), aunque el ingreso máximo también es mayor en el caso de los hombres (216 vs. 205 milenios).
En relación al tamaño de los hogares, los hogares encabezados por mujeres tienden a ser más numerosos, aunque los promedios generales son similares entre ambos sexos. Los hogares pobres suelen habitar en viviendas precarias como ranchos, y la presencia femenina se asocia con mayor probabilidad a la ocupación de quintas.
En cuanto a los servicios básicos, los hogares pobres cuentan generalmente con acceso a agua potable y sus integrantes poseen un nivel educativo promedio de entre 3 y 5 años de primaria. Finalmente, se observa una mayor desocupación en los hogares encabezados por mujeres.
Su turno.
Interprete la tabla que corresponde a las personas no pobres de acuerdo con el método de la mediana y compare esos resultados con los obtenidos con respecto a las personas pobres:
- ¿Qué características puede identificar en las personas no pobres?
- En su opinión ¿qué procesos, acciones o actividades pudieran haber creado esos resultados?
- ¿Qué diferencias importantes encuentra entre los pobres y los no pobres en Milenia?
- ¿A qué podría usted aribuir esas diferencias, si la hay?
- En caso de existir diferencias y si esas diferencias son importantes ¿cómo afectan las posibles políticas públicas que pudieran diseñarse para reducir la pobreza?
Hombre | Mujer | ||||
---|---|---|---|---|---|
edad | Mean (SD) | 31.3 (15.5) | 33.2 (19.4) | ||
Median (IQR) | 29.0 (23.5) | 32.0 (29.5) | |||
Range | 6.0 - 60.0 | 1.0 - 65.0 | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
areas | Rural | 9 (39.13%) | 9 (33.33%) | ||
Urbana | 14 (60.87%) | 18 (66.67%) | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
indigena | No | 21 (91.30%) | 19 (70.37%) | ||
Si | 2 (8.70%) | 8 (29.63%) | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
alfabet | No | 5 (21.74%) | 6 (22.22%) | ||
Si | 18 (78.26%) | 20 (74.07%) | |||
Missing | 0 (0.00%) | 1 (3.70%) | |||
asiste | No | 21 (91.30%) | 23 (85.19%) | ||
Si | 2 (8.70%) | 3 (11.11%) | |||
Missing | 0 (0.00%) | 1 (3.70%) | |||
ingreso | Mean (SD) | 672.0 (242.8) | 593.8 (216.2) | ||
Median (IQR) | 700.0 (459.5) | 637.0 (333.5) | |||
Range | 278.0 - 982.0 | 226.0 - 967.0 | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
personas_habitacion | Mean (SD) | 2.9 (2.0) | 3.9 (2.0) | ||
Median (IQR) | 2.0 (2.5) | 4.0 (3.5) | |||
Range | 1.0 - 8.0 | 1.0 - 8.0 | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
tipo_vivienda | apartamento | 10 (43.48%) | 9 (33.33%) | ||
bohio | 3 (13.04%) | 4 (14.81%) | |||
churuata | 1 (4.35%) | 1 (3.70%) | |||
quinta | 5 (21.74%) | 2 (7.41%) | |||
rancho | 4 (17.39%) | 11 (40.74%) | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
conexion_agua_potable | no | 7 (30.43%) | 15 (55.56%) | ||
si | 16 (69.57%) | 12 (44.44%) | |||
Missing | 0 (0.00%) | 0 (0.00%) | |||
escolaridad_jefe_hogar | 1er grado | 1 (4.35%) | 1 (3.70%) | ||
3er grado | 1 (4.35%) | 2 (7.41%) | |||
4to grado | 2 (8.70%) | 4 (14.81%) | |||
7mo grado | 2 (8.70%) | 3 (11.11%) | |||
8vo grDO | 1 (4.35%) | ||||
bachillerato completo | 3 (13.04%) | 3 (11.11%) | |||
bachillerato incomp | 1 (4.35%) | ||||
terciaria | 9 (39.13%) | 5 (18.52%) | |||
terciaria incomp | 2 (8.70%) | 2 (7.41%) | |||
5to grado | 1 (3.70%) | ||||
6to grado | 2 (7.41%) | ||||
9vno grado | 1 (3.70%) | ||||
Missing | 1 (4.35%) | 3 (11.11%) | |||
cuantas_personas_casa | Mean (SD) | 4.1 (3.7) | 5.2 (3.5) | ||
Median (IQR) | 2.0 (5.0) | 4.5 (6.0) | |||
Range | 1.0 - 13.0 | 1.0 - 14.0 | |||
Missing | 0 (0.00%) | 1 (3.70%) | |||
cuantos_trabajan | Mean (SD) | 1.3 (0.5) | 1.5 (0.6) | ||
Median (IQR) | 1.0 (0.8) | 1.0 (1.0) | |||
Range | 1.0 - 2.0 | 1.0 - 3.0 | |||
Missing | 1 (4.35%) | 1 (3.70%) |
Actividad 1) Elabore las tablas correspondientes a la medición por línea de pobreza por la vía de canasta alimentaria, y por la vía de las NBI. Tenga en cuenta que para el caso de la medición or la vía de la canasta alimentaria usted tiene casos en pobrezas extrema, casos en pobreza absoluta y casos de personas no pobres. Actividad 2) Elabore las tablas relacionados con las personas en pobreza crónica, pobreza inercial, pobreza reciente y no pobreza. Actividad 3) Elabore los respectivos diagnósticos.