Mostrando las entradas con la etiqueta Rgraphviz. Mostrar todas las entradas
Mostrando las entradas con la etiqueta Rgraphviz. Mostrar todas las entradas

sábado, 7 de septiembre de 2013

Rgraphviz. Asociaciones con terminos escogidos

Hugo Chávez. Asociaciones entre términos presentes en algunos de sus discursos, 1999-2002.

Hugo Chávez. Asociaciones entre términos presentes en algunos de sus discursos, 1999-2002.

Podemos seleccionar algunos términos y observar la asociacion entre ellos usando la función plot() incorporada en el paquete tm en combinación con el el paquete Rgraphviz de Bioconductor. En este caso queremos observar como pudo evolucionar la asociacion entre algunos términos en los discursos que venimos analizando del presidente Chávez.

Creando un grafo con términos escogidos

Observemos la evolucion de la asociación entre las palabras “venezuela”, “pais”, “soberania”,“pueblo”, “deuda”, “pdvsa”, “bolivar”, “pobreza”, “riqueza” en los años analizados. Observemos primero cómo funciona esta idea

set.seed(2345)
plot(tdm.99, corThreshold = 0.2, weighting = TRUE, terms = "venezuela")

plot of chunk creaAsocBio

Sólo hemos introducido un sólo término, es exactamente la visualización que obtenemos. Agremos pais, soberania

set.seed(2345)
plot(tdm.99, corThreshold = 0.2, weighting = TRUE, terms = c("venezuela", "pais", 
    "soberania"))

plot of chunk creaAsocBio2

No es ninguna sorpresa, soberania guarda una mayor asociación con Venezuela que con país. No obstante, en el año 1999, ocasionalmente pais y soberanía aparecieron juntas en algunos discusos. Incluyamos el resto de asociaciones:

set.seed(2345)
plot(tdm.99, corThreshold = 0.2, weighting = TRUE, terms = c("venezuela", "pais", 
    "soberania", "pueblo", "deuda", "pdvsa", "bolivar", "pobreza", "riqueza"), 
    attrs = list(node = list(fixedsize = FALSE, fontsize = 15, shape = "ellipse")))

plot of chunk creaAsocBio3

En 1999 los terminos analizados presentan un fuerte asociación en las siguientes combinaciones

  • venezuela-deuda-pais-bolivar-riqueza-pdvsa
  • pais-bolivar-deuda-pdvsa Otras combinaciones, sin embargo, presentan una asociación más bien débil, como es el caso de pais-riqueza-deuda. Llama la atención la baja asociación entre riqueza-deuda
set.seed(2345)
plot(tdm00, corThreshold = 0.2, weighting = TRUE, terms = c("venezuela", "pais", 
    "soberania", "pueblo", "deuda", "pdvsa", "bolivar", "pobreza", "riqueza"), 
    attrs = list(node = list(fixedsize = FALSE, fontsize = 15, shape = "ellipse")))

plot of chunk creaAsocBio4

En 2000, la palabra pobreza aparece en los discursos pero no está asociada a ninguna de las palabras que analizamos, al menos a un nivel de 0.2. Observamos que la mayoría de las asociaciones que durante el 1999 eran fuertes, aparecen en el año 2000 con intesidades moderadas a bajas y sólo se conserva un alto grado de asociación entre, por ejemplo, venezuela-riqueza-pais-pdvsa-deuda

set.seed(2345)
plot(tdm01, corThreshold = 0.2, weighting = TRUE, terms = c("venezuela", "pais", 
    "soberania", "pueblo", "deuda", "pdvsa", "bolivar", "pobreza"), attrs = list(node = list(fixedsize = FALSE, 
    fontsize = 15, shape = "ellipse")))

plot of chunk creaAsocBio5

En el año 2001 la palabra soberanía ya no aparece asociada a la rica red de relacione que observamos en los dos años anteriores. En este año, el término sólo guarda una asociación fuerte con venezuela y moderada con pais. La asociación entre venezuela y pdvsa se modera, pero se fortalece la asociación entre pdvsa y pobreza. La palabra riqueza no se menciona en asociación con ninguna de estas palabras, al menos a un nivel de 0.2.

set.seed(2345)
plot(tdm02, corThreshold = 0.2, weighting = TRUE, terms = c("venezuela", "pais", 
    "soberania", "pueblo", "deuda", "pdvsa", "bolivar", "pobreza", "riqueza"), 
    attrs = list(node = list(fixedsize = FALSE, fontsize = 15, shape = "ellipse")))

plot of chunk creaAsocBio6

En el año 2002 se recrea la red de relaciones en torno a la palabra soberania. Observamos además que la asociación entre los términos que venimos analizando se fortalece, pero pdvsa solo aparece en asociación, a este nivel de 0.2, con pais.

Rgraphviz. Bajando el nivel de asociacion y visualizando el peso de los vinculos

Hugo Chávez. Asociaciones entre términos presentes en algunos de sus discursos, 1999-2002.

Hugo Chávez. Asociaciones entre términos presentes en algunos de sus discursos, 1999-2002.

En el post anterior visualizamos las asociaciones en veinte términos seleccionados al azar con la funcion plot() incorporada en el paquete tm en combinación con el el paquete Rgraphviz de Bioconductor. Usamos, además, los valores por defecto de la función plot. En este post cambiaremos algunos valores de tal forma que podemos obtener mayor información de la visualización de las asociaciones

Cambiando algunos valores de la función plot: corThreshold y weighting

Podemos usar el parámetro weighting y cambiár el parámetro corThreshold para, por un lado, observar, usando el grosor de las líneas, las asociaciones más, o menos, fuertes en los términos, y para encontrar asociaciones más, o menos, fuertes.

set.seed(2345)
plot(tdm.99, corThreshold = 0.2, weighting = TRUE)

plot of chunk creaAsociacionesBioconductor

Podemos visualizar, por un lado, asociaciones débiles, como la que existe entre arena y adriani asi como asociaciones muy fuertes como la que existe entre los términos arena-adriani-electricos-enfermedades-pensamos gracias a la posibilidad de visualizar el peso de cada asociacion por medio de los vínculos. Por otra parte, al bajar el nivel requerido de asociación, alqunos términos que en el post anterior aparecian desconectados se han incorporado a la grafica. Ello nos indica que eran parte de la “conversación” pero que los términos se emplearon mucho menos que aquellos que presentan asociaciones más fuertes.