jueves, 26 de septiembre de 2013

Tasas de cáncer. Análisis descriptivo usando R

Análisis descriptivo

Análisis descriptivo

Se nos ha pedido información sobre diferentes tipos de cáncer en el mundo en el año 2011 y establecer la situación de Venezuela.

Como de costumbre, empezamos subiendo la data a la cónsola de trabajo de R:

cancer <- read.csv("~/cancer.csv", header = T, sep = ";", na.string = "NA", 
    dec = ",")

Obtenemos información sobre las dimensiones de la data

dim(cancer)
## [1] 191  15
str(cancer)
## 'data.frame':    191 obs. of  15 variables:
##  $ pais       : Factor w/ 191 levels "afghanistan",..: 1 2 3 4 5 6 7 8 9 10 ...
##  $ region     : Factor w/ 6 levels "africa","america",..: 3 5 1 5 1 2 3 2 4 6 ...
##  $ cervical   : num  2.6 1.5 3.4 0.8 12.5 5.4 0 5.2 5.5 1 ...
##  $ colon.recto: num  6.5 7.1 8.5 14.3 3.5 13.6 5.1 17.1 12.7 13 ...
##  $ esofago    : num  9.7 2.4 0.5 2.5 4 4.6 1.9 4.8 1.4 3.9 ...
##  $ higado     : num  3.8 6.7 1.3 4.9 9.6 5.2 3.6 4.1 11.7 3.4 ...
##  $ leucemia   : num  5.3 5.7 2.9 3.8 1.8 4 2.8 4.4 5 5.1 ...
##  $ mama       : num  14.2 18.4 16.9 15.5 13 29.8 11 24.8 28 18.2 ...
##  $ oral       : num  2 4.6 3.5 2.9 3.6 2.7 2.1 2.3 2.6 2.2 ...
##  $ ovario     : num  1 1.6 1.7 1.9 1.8 8.5 1.5 2.6 3.1 2.5 ...
##  $ pancreas   : num  2.3 8.9 1.3 4.6 1.3 3.4 4 8.8 9.4 6.2 ...
##  $ pulmon     : num  7.2 31 10.6 21.6 2.3 8.3 7.4 21.8 39.3 23 ...
##  $ vejiga     : num  4.3 3.8 5 4.2 1.5 3.1 1.5 3.2 5.9 2.8 ...
##  $ gdpcapita  : Factor w/ 188 levels "1.098","1.114",..: 148 105 134 115 130 35 102 29 83 71 ...
##  $ region.1   : Factor w/ 13 levels "aao","africa sub",..: 11 7 11 7 2 5 11 13 7 4 ...

Hay 196 casos, es decir países, y 15 variables, cuatro de ellas cualitativas y el resto numéricas.

Una de las primeras preguntas que pudieramos formularnos es, con la data disponibles ¿Cuál es la distribución de los diferentes tipos de cáncer? Para responderlar nos planteamos una comparación de la distribución de los tipos de cáncer. Para ello elaboramos, por ejemplo, un gráfico de caja y bigotes:


boxplot(cancer[, 3:13], las = 2, border = paleta)
grid()

plot of chunk tiposCancer

Observamos que el cáncer de pulmón y el cáncer de mama son los más frecuentes tipos de cáncer. El primero presenta mayor número de casos, está más extendido, pero el cáncer de mama presente tasas más altas: las tasas mínimas del cáncer de pulmón son de 0.7 casos por cada 100 mil casos, en tanto que las del cáncer de mama es de 1.5 casos por cada 100 mil habitantes. El cancer de colon-recto es el tercer tipo de cáncer con mayores tasas, en el 75% de los casos, la tasa es de 13.15 casos por cada 100 mil habitantes. En el resto de los tipos de cáncer, en el 75% de los casos las tasas son inferiores a los 10 cada 100 mil habitantes o menos:

barplot(sort(sapply(cancer[, 3:13], quantile, probs = 0.75)), names.arg = c("ovario", 
    "vejiga", "oral", "leucemia", "esofago", "pancreas", "cervical", "higado", 
    "colon.recto", "mama", "pulmon"), border = "white", las = 2, ylim = c(0, 
    25))
grid(equilogs = FALSE)

plot of chunk setentaycico

Seguimos examinando el comportamiento de las tasas de los tipos de cáncer disponible por región y subregión:

boxplot(cancer$mama ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes", 
    main = "Incidencia de cáncer de mama según región, 2011")
grid()

plot of chunk mamaPulmon


boxplot(cancer$pulmon ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes", 
    main = "Incidencia de cáncer de pulmon según región, 2011")
grid()

plot of chunk mamaPulmon


boxplot(cancer$colon.recto ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes", 
    main = "Incidencia de cáncer de colon-recto según region, 2011")
grid()

plot of chunk mamaPulmon


boxplot(cancer$cervical ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes", 
    main = "Incidencia de cáncer cervical según region, 2011")
grid()

plot of chunk mamaPulmon

boxplot(cancer$higado ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes", 
    main = "Incidencia de cáncer de higado según region, 2011")
grid()

plot of chunk mamaPulmon

Por subregion

boxplot(cancer$mama ~ cancer$region.1, las = 2, border = paleta)
grid()

plot of chunk unnamed-chunk-1

boxplot(cancer$pulmon ~ cancer$region.1, las = 2, border = paleta)
grid()

plot of chunk unnamed-chunk-1

De inmediato buscamos el comportamiento de estos tipos de cáncer en el caso venezolano:

venezuela <- cancer[cancer$pais == "venezuela", ]
barplot(as.matrix(sort(venezuela[, 3:13])), las = 2, ylim = c(0, 20), )
grid()

plot of chunk venezuela

Observamos que los valores de las tasas de los tipos de cáncer analizados en Venezuela se conforman al patrón general de la tasa para la mayoría de y que ninguno de los valores analizado, las tasas presentan valores atípicos ni valores extremos en las modalidades analizada de cáncer analizadas. Comparamos el tercer cuartil de las tasas en el mundo y comparamos ese resultado con los valores de Venezuela:

tasaMundo <- (sapply(cancer[, 3:13], quantile, probs = 0.75))
tasaVen <- venezuela[, 3:13]
plot(tasaMundo, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente al 75% de los casos", 
    ylab = "tasas en Venezuela")
text(tasaMundo, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)

plot of chunk venezulamund

Notamos que las tasas de Venezuela están por debajo del valor del tercer cuartil de las tasas en los casos de cáncer.No obstante, en los casos del cáncer de mama, leucemia, y ovarios, las tasas venezolana se aproxima al valor de las tasas correspondientes al tercer cuartil en los países analizados. Comparemos ahora la información sobre la mediana de las tasas en los países analizados, con los valores en Venezuela:

tasaMundo <- (sapply(cancer[, 3:13], quantile, probs = 0.5))
plot(tasaMundo, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente a la mediana", 
    ylab = "tasas en Venezuela")
text(tasaMundo, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)

plot of chunk venezulamundoa

Las tasas de cáncer de cervical, colón-recto y pancreas son más altos en Venezuela con respecto a los valores promedios en los países analizados. En tanto que las tasas de los otros tipos de cáncer se acercan a los valores promedios de las tasas en el resto de los países, con excepción del cáncer de mama y pulmón. Sin embargo, cuando comparamos la data de Venezuela con respecto a los valores del primer cuartil de las tasas de cáncer, entonces notamos que los valores de Venezuela están por encima de los valores del resto de los paises, en algunos casos bastante por encima, con excepción de la tasa del cáncer oral, que es igual:

tasaMundo <- (sapply(cancer[, 3:13], quantile, probs = 0.25))
plot(tasaMundo, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente primer cuartil", 
    ylab = "tasas en Venezuela")
text(tasaMundo, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)

plot of chunk venezulamundob

Comparamos ahora los valores de Venezuela con respecto las tasas correspondiente a la región americana

america <- cancer[cancer$region == "america", ]
tasaAmerica <- (sapply(america[, 3:13], quantile, probs = 0.75))
plot(tasaAmerica, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente al 75% de los casos en las Américas", 
    ylab = "tasas en Venezuela")
text(tasaAmerica, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)

plot of chunk venezulaamerica

tasaAmerica <- (sapply(america[, 3:13], quantile, probs = 0.5))
plot(tasaAmerica, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente a la mediana en las Américas", 
    ylab = "tasas en Venezuela")
text(tasaAmerica, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)

plot of chunk venezulaamerica1

tasaAmerica <- (sapply(america[, 3:13], quantile, probs = 0.25))
plot(tasaAmerica, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente al primer cuartil en las Américas", 
    ylab = "tasas en Venezuela")
text(tasaAmerica, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)

plot of chunk venezulaamerica2

Dependiendo de que parte de la distribución observemos, podemos darnos cuenta de que Venezuela presenta tasas inferiores al resto de los países, o que presenta tasas superiores. En general, en nuestro país las tasas de los tipos de cáncer revisadas son inferiores al valor de las tasas en el mundo y en algunos países de América cuando comparamos los valores con los del tercer cuartil; sin embargo cuando se trata de la mediana, los valores de las tasas se acercan o son superiores al resto de los países, o, cuando comparamos con las Américas bastante similares. Finalmente, las tasas en Venezuela son más altas en la mayoría de los casos, al valor de las tasas del primer cuartil en el resto de los países, y en algunos casos con respecto a las Américas

El siguiente paso en este análisis es seleccionar el gráfico que mejor presenta esta información, eloborarlo y señalar lo que hemos observado en pocas líneas junto con las recomendaciones del caso.

No hay comentarios: