viernes, 20 de septiembre de 2013

Patron de datos faltantes

Tasas de homicidio a nivel mundial con énfasis en las tasas de Venezuela, 1995-2011. Parte II

Tasas de homicidio a nivel mundial con énfasis en las tasas de Venezuela, 1995-2011. Parte II

Queremos analizar la data sobre homicidios intencionales en el mundo para intentar responder las siguientes preguntas:

  • ¿Venezuela es el país más violento del mundo? Si no lo es,
  • ¿Está entre los países más violentos del mundo?
  • ¿Cómo podríamos clasificar los países tomando como referencias tasas de homicidios intencionales?
  • ¿Qué tan parecidos o diferentes son los paises según la tasa de homicidios reportadas?

Hemos comenzado por un diagnóstico de los datos faltantes. Una información necesaria para estar en capacidad de determinar hasta qué punto, con esta data podriamos responder las preguntas anteriores. Y hemos comprobado que la data presenta una proporción bastante elevada de datos faltantes que dificulta, por ejemplo, llegar a conclusiones sólidas si se compara el nivel de violencia -partimos del supuesto de que la tasa de homicidio intencional es un indicador proxy del grado de violencia en una sociedad dada- por regiones y subregiones. En este post completaremos este análisis observando con mayor detenimiento el comportamiento de los datos faltantes años a año.

Data

Tal como indicamos en la primera parte de este análisis, la data sobre homicidios intencionales recopilada por Oficina de las Naciones Unidas Contra la Droga y el Delito contiene una gran cantidad de datos pérdido. Las regiones con mayor cantidad de datos pérdidos son Africa y Oceanía, como podemos apreciar en la siguiente gráfica (los datos faltantes estan en color verde oscuro):

barMiss(homicidios, col = c("#ADDD8E", "#004529"), border = "white", pos = 1, 
    xla = "")

plot of chunk unnamed-chunk-1

En cuanto a las regiones, veamos el comportamiento:


barMiss(homicidios, col = c("#ADDD8E", "#004529"), border = "white", pos = 2, 
    xla = "")

plot of chunk unnamed-chunk-2

Recordemos que las subregiones son:

australia and new zealand, caribbean, central america, central asia, eastern africa, eastern asia, eastern europe, melanesia, micronesia, middle africa, northern africa, northern america, northern europe, polynesia, south-eastern asia, south america, southern africa, southern asia, southern europe, western africa, western asia, western europe Por último, Observando la relación de datos perdidos por años, encontramos que en forma global, en los 17 años de un total de 3553 datos posibles, hay un total de 1601 casos perdidos, 45.06% y 1952 casos disponible, 54.94%. El porcentaje de datos perdidos por cada año es:


dd <- sapply(homicidios[, 7:23], function(x) round(mean(is.na(x)) * 100, 2))
names(dd) <- Años
data.frame(porcentaje = dd)
##      porcentaje
## 1995      64.59
## 1996      62.20
## 1997      61.24
## 1998      56.46
## 1999      54.55
## 2000      47.37
## 2001      47.37
## 2002      46.89
## 2003      41.15
## 2004      34.45
## 2005      33.49
## 2006      32.06
## 2007      32.06
## 2008       9.09
## 2009      37.80
## 2010      45.45
## 2011      59.81
## [1] 55 23
## [1] 154  23

Con respecto a los casos, solo 55 países de 209, 23,9%, tienen información completa sobre la tasa de homicidio intencional en el lapso observado, en tanto que 159, 76,1% presentan datos faltantes. Al observar el gráfico que se presenta a continuación, los casos con datos faltante aparecen en color rojo y con data, en color azul, notamos que la data parece seguir un patrón NMAR, por lo que seria un tanto temerario imputar esos valores, salvos para algunos casos, en los que falta 3 o menos valores, Venezuela por ejemplo. Por otra parte, hay regiones en las que sistemáticamente falta información y de la que se dispone no siempre corresponde a los mismos países que reportaron homicidios intencionales en el año inmediatamente anterior. No hay pues continuidad en la serie. Por consiguiente, sólamente el análisis de los valores perdidos nos indica ya que no podemos afirmar o negar si Venezuela es el pais más violento del mundo, o si está dentro del grupo de los países más violentos. Podemos comparar la información de Venezuela con la de los países que tienen datos completos, o, en todo caso, analizar el comportamiento año a año de estas tasas en Venezuela con respecto a la de los países que reportaron la información en esos años. En uno u otro caso, Venezuela, de presentar tasas más altas, se podría comparar con el 23% de los países del mundo, o con el porcentaje de países que tienen esa información:


aggr(homicidios, prop = FALSE, numbers = TRUE)

plot of chunk patron plot of chunk patron

No hay comentarios: