Clusters

- enero 22, 2014

Análisis por conglomerados

Una de las técnicas més sencilla para clasificar diferentes casos, y sin embargo poco usada en la planificación, es el análisis de cluster (también an´lisis por conglomerados). Vamos a aplicar la técnica, pero primero vamos a obtener nuestra data:

data <- read.csv2("~/datosAnalisis/poblacion.csv", header = T)
data <- data[1:22, ]
names(data) <- c("parroquia", "2001", "2011")

Hemos subido la data a la cónsola. Luego hemos verificado el contenido; finalmente, hemos cambiado el nombre de las columnas. El siguiente paso consistir´ en crear una matriz de distancia, primero con la data correspondiente al an˜ :

dataDist <- dist(as.matrix(data[, 1:2]))

## Warning: NAs introduced by coercion

Creamos ahora el gráfico que nos mostrará las parroquias según su el grado de similitud entre ellas, tomando en cuenta el porcentajes de población del Distrito Capital que habita en ellas:

dataClust <- hclust(dataDist)
plot(dataClust, labels = data$parroquia)

plot of chunk unnamed-chunk-3

En 2001, de acuerdo al porcentaje de la población que cada parroquia tenía, del porcentaje total de la población del Distrito Capital, y dependiendo de los objetivos de la clasificación podemos encontrar que las 22 parroquias pueden clasificarse en 14, de abajo hacia arriba:

Paraiso y Recreo
San Juan
Santa Rosalía
Pastora y 23 de Enero
Valle y Caricuao
La Vega y Antímano
Junquito y Altagracia
San José
San Agustín y Macarao
Coche y Candelaria
San Pedro
Santa Teresa y San Bernardino
Catedral
Sucre

Si deseamos un número menor de grupos, podemos avanzar un nivel hacia arriba del gráfico (dendograma). Encontramos entonces cuatro grupos:

Paraiso, Recreo, San Juan, Pastora, Santa Rosalía y 23 de Enero
Valle, Caricuao, La Vega y Antímano
Junquito, Altagracia,San José,San Agustín y Macarao
Coche y Candelaria, San Pedro,Santa Teresa, San Bernardino,Catedral
Sucre

Finalmente, podemos tres grandes grupos:

Paraiso, Recreo, San Juan, Pastora, Santa Rosalía y 23 de Enero, Valle, Caricuao, La Vega y Antímano
Junquito, Altagracia,San José,San Agustín y Macarao, Coche y Candelaria, San Pedro,Santa Teresa, San Bernardino,Catedral
Sucre

Los conglomerados que obtenemos dependerá del tipo de distancia que seleccionemos. Por ello es importante correr los clusters usando diferentes distancias, y tomar aquellos grupos que se mantengan, independientemente del tipo de distancia. Por otra parte, debemos normalizar la data si detectamos que algunos casos, como sucede con Sucre, podrían influenciar la conformación de los grupos

Observemos en un gráafico de barras las parroquias de acuerdo con el porcentaje de población del Distrito Capital que habita en cada una:

par(mar = c(5, 8, 4, 2))
par(las = 2)
barplot(data[, 2], names.arg = data$parroquia, las = 2, border = "white", horiz = TRUE, 
    xlim = c(0, 20))

grid(4, NA, col = "white")

plot of chunk barrasPoblacion

Buscar este blog

Dra. Beatriz Valdez: Estrategia y Datos Sociales

Clusters

Análisis por conglomerados

Comentarios

Entradas más populares de este blog

Banderas de Venezuela, 1500-2006

Cluster jerárquico

Función "Recode" del paqute dplyr