Análisis descriptivo
Análisis descriptivo
Se nos ha pedido información sobre diferentes tipos de cáncer en el mundo en el año 2011 y establecer la situación de Venezuela.
Como de costumbre, empezamos subiendo la data a la cónsola de trabajo de R:
cancer <- read.csv("~/cancer.csv", header = T, sep = ";", na.string = "NA",
dec = ",")
Obtenemos información sobre las dimensiones de la data
dim(cancer)
## [1] 191 15
str(cancer)
## 'data.frame': 191 obs. of 15 variables:
## $ pais : Factor w/ 191 levels "afghanistan",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ region : Factor w/ 6 levels "africa","america",..: 3 5 1 5 1 2 3 2 4 6 ...
## $ cervical : num 2.6 1.5 3.4 0.8 12.5 5.4 0 5.2 5.5 1 ...
## $ colon.recto: num 6.5 7.1 8.5 14.3 3.5 13.6 5.1 17.1 12.7 13 ...
## $ esofago : num 9.7 2.4 0.5 2.5 4 4.6 1.9 4.8 1.4 3.9 ...
## $ higado : num 3.8 6.7 1.3 4.9 9.6 5.2 3.6 4.1 11.7 3.4 ...
## $ leucemia : num 5.3 5.7 2.9 3.8 1.8 4 2.8 4.4 5 5.1 ...
## $ mama : num 14.2 18.4 16.9 15.5 13 29.8 11 24.8 28 18.2 ...
## $ oral : num 2 4.6 3.5 2.9 3.6 2.7 2.1 2.3 2.6 2.2 ...
## $ ovario : num 1 1.6 1.7 1.9 1.8 8.5 1.5 2.6 3.1 2.5 ...
## $ pancreas : num 2.3 8.9 1.3 4.6 1.3 3.4 4 8.8 9.4 6.2 ...
## $ pulmon : num 7.2 31 10.6 21.6 2.3 8.3 7.4 21.8 39.3 23 ...
## $ vejiga : num 4.3 3.8 5 4.2 1.5 3.1 1.5 3.2 5.9 2.8 ...
## $ gdpcapita : Factor w/ 188 levels "1.098","1.114",..: 148 105 134 115 130 35 102 29 83 71 ...
## $ region.1 : Factor w/ 13 levels "aao","africa sub",..: 11 7 11 7 2 5 11 13 7 4 ...
Hay 196 casos, es decir países, y 15 variables, cuatro de ellas cualitativas y el resto numéricas.
Una de las primeras preguntas que pudieramos formularnos es, con la data disponibles ¿Cuál es la distribución de los diferentes tipos de cáncer? Para responderlar nos planteamos una comparación de la distribución de los tipos de cáncer. Para ello elaboramos, por ejemplo, un gráfico de caja y bigotes:
boxplot(cancer[, 3:13], las = 2, border = paleta)
grid()
Observamos que el cáncer de pulmón y el cáncer de mama son los más frecuentes tipos de cáncer. El primero presenta mayor número de casos, está más extendido, pero el cáncer de mama presente tasas más altas: las tasas mínimas del cáncer de pulmón son de 0.7 casos por cada 100 mil casos, en tanto que las del cáncer de mama es de 1.5 casos por cada 100 mil habitantes. El cancer de colon-recto es el tercer tipo de cáncer con mayores tasas, en el 75% de los casos, la tasa es de 13.15 casos por cada 100 mil habitantes. En el resto de los tipos de cáncer, en el 75% de los casos las tasas son inferiores a los 10 cada 100 mil habitantes o menos:
barplot(sort(sapply(cancer[, 3:13], quantile, probs = 0.75)), names.arg = c("ovario",
"vejiga", "oral", "leucemia", "esofago", "pancreas", "cervical", "higado",
"colon.recto", "mama", "pulmon"), border = "white", las = 2, ylim = c(0,
25))
grid(equilogs = FALSE)
Seguimos examinando el comportamiento de las tasas de los tipos de cáncer disponible por región y subregión:
boxplot(cancer$mama ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes",
main = "Incidencia de cáncer de mama según región, 2011")
grid()
boxplot(cancer$pulmon ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes",
main = "Incidencia de cáncer de pulmon según región, 2011")
grid()
boxplot(cancer$colon.recto ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes",
main = "Incidencia de cáncer de colon-recto según region, 2011")
grid()
boxplot(cancer$cervical ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes",
main = "Incidencia de cáncer cervical según region, 2011")
grid()
boxplot(cancer$higado ~ cancer$region, las = 2, border = paleta, ylab = "tasas/100 mil habitantes",
main = "Incidencia de cáncer de higado según region, 2011")
grid()
Por subregion
boxplot(cancer$mama ~ cancer$region.1, las = 2, border = paleta)
grid()
boxplot(cancer$pulmon ~ cancer$region.1, las = 2, border = paleta)
grid()
De inmediato buscamos el comportamiento de estos tipos de cáncer en el caso venezolano:
venezuela <- cancer[cancer$pais == "venezuela", ]
barplot(as.matrix(sort(venezuela[, 3:13])), las = 2, ylim = c(0, 20), )
grid()
Observamos que los valores de las tasas de los tipos de cáncer analizados en Venezuela se conforman al patrón general de la tasa para la mayoría de y que ninguno de los valores analizado, las tasas presentan valores atípicos ni valores extremos en las modalidades analizada de cáncer analizadas. Comparamos el tercer cuartil de las tasas en el mundo y comparamos ese resultado con los valores de Venezuela:
tasaMundo <- (sapply(cancer[, 3:13], quantile, probs = 0.75))
tasaVen <- venezuela[, 3:13]
plot(tasaMundo, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente al 75% de los casos",
ylab = "tasas en Venezuela")
text(tasaMundo, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)
Notamos que las tasas de Venezuela están por debajo del valor del tercer cuartil de las tasas en los casos de cáncer.No obstante, en los casos del cáncer de mama, leucemia, y ovarios, las tasas venezolana se aproxima al valor de las tasas correspondientes al tercer cuartil en los países analizados. Comparemos ahora la información sobre la mediana de las tasas en los países analizados, con los valores en Venezuela:
tasaMundo <- (sapply(cancer[, 3:13], quantile, probs = 0.5))
plot(tasaMundo, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente a la mediana",
ylab = "tasas en Venezuela")
text(tasaMundo, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)
Las tasas de cáncer de cervical, colón-recto y pancreas son más altos en Venezuela con respecto a los valores promedios en los países analizados. En tanto que las tasas de los otros tipos de cáncer se acercan a los valores promedios de las tasas en el resto de los países, con excepción del cáncer de mama y pulmón. Sin embargo, cuando comparamos la data de Venezuela con respecto a los valores del primer cuartil de las tasas de cáncer, entonces notamos que los valores de Venezuela están por encima de los valores del resto de los paises, en algunos casos bastante por encima, con excepción de la tasa del cáncer oral, que es igual:
tasaMundo <- (sapply(cancer[, 3:13], quantile, probs = 0.25))
plot(tasaMundo, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente primer cuartil",
ylab = "tasas en Venezuela")
text(tasaMundo, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)
Comparamos ahora los valores de Venezuela con respecto las tasas correspondiente a la región americana
america <- cancer[cancer$region == "america", ]
tasaAmerica <- (sapply(america[, 3:13], quantile, probs = 0.75))
plot(tasaAmerica, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente al 75% de los casos en las Américas",
ylab = "tasas en Venezuela")
text(tasaAmerica, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)
tasaAmerica <- (sapply(america[, 3:13], quantile, probs = 0.5))
plot(tasaAmerica, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente a la mediana en las Américas",
ylab = "tasas en Venezuela")
text(tasaAmerica, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)
tasaAmerica <- (sapply(america[, 3:13], quantile, probs = 0.25))
plot(tasaAmerica, tasaVen, type = "n", xlim = c(0, 25), ylim = c(0, 20), xlab = "tasas correspondiente al primer cuartil en las Américas",
ylab = "tasas en Venezuela")
text(tasaAmerica, tasaVen, names(cancer[, 3:13]))
grid(nx = 2)
Dependiendo de que parte de la distribución observemos, podemos darnos cuenta de que Venezuela presenta tasas inferiores al resto de los países, o que presenta tasas superiores. En general, en nuestro país las tasas de los tipos de cáncer revisadas son inferiores al valor de las tasas en el mundo y en algunos países de América cuando comparamos los valores con los del tercer cuartil; sin embargo cuando se trata de la mediana, los valores de las tasas se acercan o son superiores al resto de los países, o, cuando comparamos con las Américas bastante similares. Finalmente, las tasas en Venezuela son más altas en la mayoría de los casos, al valor de las tasas del primer cuartil en el resto de los países, y en algunos casos con respecto a las Américas
El siguiente paso en este análisis es seleccionar el gráfico que mejor presenta esta información, eloborarlo y señalar lo que hemos observado en pocas líneas junto con las recomendaciones del caso.