miércoles, 22 de enero de 2014

Clusters

Análisis por conglomerados

Análisis por conglomerados

Una de las técnicas més sencilla para clasificar diferentes casos, y sin embargo poco usada en la planificación, es el análisis de cluster (también an´lisis por conglomerados). Vamos a aplicar la técnica, pero primero vamos a obtener nuestra data:

data <- read.csv2("~/datosAnalisis/poblacion.csv", header = T)
data <- data[1:22, ]
names(data) <- c("parroquia", "2001", "2011")

Hemos subido la data a la cónsola. Luego hemos verificado el contenido; finalmente, hemos cambiado el nombre de las columnas. El siguiente paso consistir´ en crear una matriz de distancia, primero con la data correspondiente al an˜ :

dataDist <- dist(as.matrix(data[, 1:2]))
## Warning: NAs introduced by coercion

Creamos ahora el gráfico que nos mostrará las parroquias según su el grado de similitud entre ellas, tomando en cuenta el porcentajes de población del Distrito Capital que habita en ellas:

dataClust <- hclust(dataDist)
plot(dataClust, labels = data$parroquia)

plot of chunk unnamed-chunk-3

En 2001, de acuerdo al porcentaje de la población que cada parroquia tenía, del porcentaje total de la población del Distrito Capital, y dependiendo de los objetivos de la clasificación podemos encontrar que las 22 parroquias pueden clasificarse en 14, de abajo hacia arriba:

  • Paraiso y Recreo
  • San Juan
  • Santa Rosalía
  • Pastora y 23 de Enero
  • Valle y Caricuao
  • La Vega y Antímano
  • Junquito y Altagracia
  • San José
  • San Agustín y Macarao
  • Coche y Candelaria
  • San Pedro
  • Santa Teresa y San Bernardino
  • Catedral
  • Sucre

Si deseamos un número menor de grupos, podemos avanzar un nivel hacia arriba del gráfico (dendograma). Encontramos entonces cuatro grupos:

  • Paraiso, Recreo, San Juan, Pastora, Santa Rosalía y 23 de Enero
  • Valle, Caricuao, La Vega y Antímano
  • Junquito, Altagracia,San José,San Agustín y Macarao
  • Coche y Candelaria, San Pedro,Santa Teresa, San Bernardino,Catedral
  • Sucre

Finalmente, podemos tres grandes grupos:

  • Paraiso, Recreo, San Juan, Pastora, Santa Rosalía y 23 de Enero, Valle, Caricuao, La Vega y Antímano
  • Junquito, Altagracia,San José,San Agustín y Macarao, Coche y Candelaria, San Pedro,Santa Teresa, San Bernardino,Catedral
  • Sucre

Los conglomerados que obtenemos dependerá del tipo de distancia que seleccionemos. Por ello es importante correr los clusters usando diferentes distancias, y tomar aquellos grupos que se mantengan, independientemente del tipo de distancia. Por otra parte, debemos normalizar la data si detectamos que algunos casos, como sucede con Sucre, podrían influenciar la conformación de los grupos

Observemos en un gráafico de barras las parroquias de acuerdo con el porcentaje de población del Distrito Capital que habita en cada una:

par(mar = c(5, 8, 4, 2))
par(las = 2)
barplot(data[, 2], names.arg = data$parroquia, las = 2, border = "white", horiz = TRUE, 
    xlim = c(0, 20))

grid(4, NA, col = "white")

plot of chunk barrasPoblacion

No hay comentarios: