Mostrando las entradas con la etiqueta paquete tm. Mostrar todas las entradas
Mostrando las entradas con la etiqueta paquete tm. Mostrar todas las entradas

sábado, 25 de mayo de 2024

Análisis de cluster

Hugo Chávez. Asociaciones entre términos presentes en algunos de sus discursos, 1999-2002.

Empleo el análisis de cluster para clasificar algunos discursos de Hugo Chávez Fría. El análisis de cluster es una técnica de análisis no supervisado.


Hugo Chávez. Asociaciones entre términos presentes en algunos de sus discursos, 1999-2002.

El paquete tm nos permite también encontrar qué textos guardan mayor relación entre ellos. Para ello nos permite emplear cluster, o conglomerados, jerárquicos y también k-means. No obstante, se pueden emplear otros algorritmos empleando otros paquetes de R tales como cluster, gclus, vegan, vegclus, ape, FactoMineR, entre otros. Trabajaremos este post con las funciones desarrolladas en el paquete tm, para lo cual debemos trabajar con el paquete proxy.

Cluster jerárquico

Aplicamos cluster jerárquico en este concepto para observar qué discursos son más parecidos entre sí durante los años analizados. También podríamos emplear la técnica para observar durante qué años los contenidos de los discursos tendieron a ser semejantes. El cluster jerárquico emplea medidas de distancias para calcular qué tan cercano estan los textos entre sí. Existen numerosas medidas de distancias que se emplean para clasificar textos, sin embargo en el contexto de minería de texto usualmente se emplean las distancias “coseno” y “Jaccard”. Discutir las virtudes y limitaciones de esta medida está fuera del alcance de este post. Posiblemente más adelante revisemos este punto. Por ahora emplearemos la distancia “coseno” para examinar la similitud entre los diferentes textos que componen nuestra base de datos textual con algunos discursos emitidos por el presidente Chávez entre 1999 y 2002.

El primer paso para clasificar los texto dentro de este paradigma consiste en crear una matriz que calcule la distancia entre los textos. Para ello empleamos la funcion dissimilarity del paquete tm. Recordemos que seguimos empleando las bases de datos sin eliminar los términos funcionales y que los discursos, escritos o las transcripciones de discursos orales, que analizmos son:

H. Chavez. Textos analizados, 1999-2002
MetaID Author Heading Description ID Language Origen
0 Hugo Chavez Bill Clinton carta clinton Spanish www.analitica.com
0 Hugo Chavez Ilich Ramirez Sanchez carta chacal Spanish www.analitica.com
0 Hugo Chavez Corte Suprema de Justicia carta csj Spanish www.analitica.com
0 Hugo Chavez Cien dias de gobierno cadena nacional cien Spanish www.analitica.com
0 Hugo Chavez Desfile julio discurso desfile Spanish www.analitica.com
0 Hugo Chavez Alocucion Proceres discurso proceres Spanish www.analitica.com
0 Hugo Chavez Jesus Urdaneta Hernandez entrevista urdaneta Spanish www.analitica.com
0 Hugo Chavez Juramentacion Gabinete cadena nacional gabinete Spanish www.analitica.com
0 Hugo Chavez Discurso toma de posesion discurso posesion Spanish www.analitica.com
0 Hugo Chavez Respuesta Conferencia Episcopal carta cev Spanish www.analitica.com
0 Hugo Chavez Dieciocho meses de gobierno cadena nacional dieciocho Spanish www.analitica.com
0 Hugo Chavez Clausura II Cumbre OPEP discurso opep Spanish www.analitica.com
0 Hugo Chavez Palabras en el Panteon Nacional discurso panteon Spanish www.analitica.com
0 Hugo Chavez Frijolito II entrevista frijolitoII Spanish www.analitica.com
0 Hugo Chavez Revolucion Democratica programa gobierno rev.democ Spanish www.analitica.com
0 Hugo Chavez Presupuesto nacional cadena nacional presupuesto Spanish www.analitica.com
0 Hugo Chavez Cadena nacional agosto cadena cadago Spanish www.analitica.com
0 Hugo Chavez Cadena nacional junio cadena cadjun Spanish www.analitica.com
0 Hugo Chavez cadena nacional octubre cadena cadoct Spanish www.analitica.com
0 Hugo Chavez Cumbre Grupo de los Tres discurso grupo.tres Spanish www.analitica.com
0 Hugo Chavez Entrevista Heinz Dieterich entrevista dietrich Spanish www.analitica.com
0 Hugo Chavez Salutacion Cuerpo Diplomatico discurso salutacion Spanish www.analitica.com
0 Hugo Chavez Cadena al Retoma el poder cadena nacional retoma Spanish www.analitica.com
0 Hugo Chavez Francisco Arias Cardenas entrevista arias.cardenas Spanish www.analitica.com
0 Hugo Chavez Consejo Federal de Gobierno discurso consejo Spanish www.analitica.com
0 Hugo Chavez En la FAO discurso fao Spanish www.analitica.com
0 Hugo Chavez Entrega Premio Nacional Periodista discurso premio.periodista Spanish www.analitica.com
0 Hugo Chavez Marcha en Av Bolivar discurso marcha.respaldo Spanish www.analitica.com
0 Hugo Chavez Plan vivienda productiva discurso vivenda.productiva Spanish www.analitica.com
0 Hugo Chavez Con Jorge Gestoso entrevista j.gestoso Spanish www.analitica.com
0 Hugo Chavez con Martha Harnecker entrevista m.harnecker Spanish www.analitica.com
0 Hugo Chavez En Monterrey discurso monterrey Spanish www.analitica.com
0 Hugo Chavez Con medios internacionales entrevista m.internacionales Spanish www.analitica.com
0 Hugo Chavez Vision estrategica Venezuela discurso vision Spanish www.analitica.com
require(proxy)
## Loading required package: proxy
## 
## Attaching package: 'proxy'
## 
## The following object is masked from 'package:stats':
## 
## as.dist, dist
distancia99 <- dissimilarity(tdm.99, method = "cosine")
distancia00 <- dissimilarity(tdm00, method = "cosine")
distancia01 <- dissimilarity(tdm01, method = "cosine")
distancia02 <- dissimilarity(tdm02, method = "cosine")

El segundo paso consiste en visualizar los textos clasificados. Para ello empleamos la funciónn hclust. Para crear la aglomeración existen diversos métodos. En algún otro post discutiremos cada uno de ellos. En esta oportunidad simplemente emplearemos el métodos ward

plot(hclust(distancia99, method = "ward"), cex = 0.8, main = "Discursos 1999", 
    sub = "metodo Ward", ylab = "historia de aglomeracion", xlab = "Clasificación")

plot of chunk distancias99

El cluster identifica dos grupos de textos. La carta dirigida a Ilich Ramírez y los 8 restantes. Podemos observar que las cartas presentan mayores similarides entre sí que con el resto de los textos. Notamos además que el nivel de similaridad mayor entre los documentos ocurre en el contenido de la cadena nacional con motivo de los primeros cien días de gobierno y el discurso ofrecido el 2 de febrero por el presidente Chávez a raíz de la toma de posesión. Igualmente, el contenido de estos dos discursos está próximo al contenido del discurso ofrecido el mismo 2 de febrero en los Próceres.

plot(hclust(distancia00, method = "ward"), cex = 0.8, main = "Discursos 2000", 
    sub = "metodo Ward", ylab = "historia de aglomeracion", xlab = "Clasificación")

plot of chunk distancias00

Los textos de los discursos del año 2000 se dividen en dos grandes grupos. De un lado destaca el discurso de clausura de la Cumbre de la OPEP cuyo contenido en alguna forma es algo similar a la respuesta de Chávez a la Conferencia Episcopal y a la propuesta, programa de gobierno, para Continuar la Revolución. Sorprendentemente estos dos últimos textos han sido clasificados como bastantes similares. Del otro lado, el segundo grupo, consta de dos textos algo parecidos, el discurso en el Panteon y un conjunto de entrevistas que le hacen en diferentes contextos, más dos textos muy similares, que son la alocución con motivo de los dieciocho meses de gobierno y la alocución con motivo del Presupuesto 2000. La similaridad entre estos dos textos no sugiere que en ambos se discute ampliamente temas económicos.

plot(hclust(distancia01, method = "ward"), cex = 0.8, main = "Discursos 2001", 
    sub = "metodo Ward", ylab = "historia de aglomeracion", xlab = "Clasificación")

plot of chunk distancias01

En 2001 encontramos también dos grupos de textos. El discurso con motivo de la instalación del Grupo de los Tres, totalmente distinto a los textos del segundo grupo. En este último encontramos textos con cierto parecido, la Salutación al Cuerpo Diplomático, la entrevista concedida a H. Dieterich así como la cadena del 29 de octubre. Las cadenas del 15 de junio y del 8 de agosto, son bastante similares y ambas, están próximas al contenido del texto de la cadena de octubre.

plot(hclust(distancia02, method = "ward"), cex = 0.8, main = "Discursos 2002", 
    sub = "metodo Ward", ylab = "historia de aglomeracion", xlab = "Clasificación")

plot of chunk distancias02

En 2002 encontramos nuevamente dos grupos de documentos. En el primero figuran el discurso la FAO, y el discurso en Monterrey. En el segundo encontramos documentos con cierta nivel de cercanía. En este grupo encontramos que la entrevista concedida a Martha Hanecker y la rueda de prensa con motivo de la retoma del poder son bastante similares, al igual que el discurso ofrecido en la Av. Bolívar con motivo de la marcha en respaldo a su gobierno con la entrevista concedida a Jorge Gestoso.

En general podemos concluir que la técnica de cluster jerárquico clasifica en forma bastante aceptable los discursos que venimos analizando.

Problemas comunitarios y ODS


A partir de un listado de problemas señalados por 500 personas habitantes de diferentes comunidades he elaborado un análisis que me ha permitido extraer, a partir de la visualización de las palabras más empleadas, el tipo de Objetivo de Desarrollo Sostenible que parece estar comprometido en el conjunto de las comunidades participantes.
Figura 1.Problemas comunitarios según participantes

Las personas experimentan los problemas como algo que debería existir (quizá producto de una promesa), pero se ha concretado en menos cantidad de la que se necesita: FALTA.

Se observa también que parecen emerger dos grandes palabras claves en las que se concentran las preocupaciones: Falta y Participación-sistema”. Se pueden identificar tres sub-comunidades menos preponderantes pero no por ello de menor importancia. Se relacionan con la infraestructura y el mantenimiento. Al colocar el foco en estas temáticas podemos, adicionalmente, relacionar las preocupaciones de las comunidades con los Objetivos de Desarrollo Sostenibles, ODS :

viernes, 24 de mayo de 2024

Planificación estratégica

Planificación estratégica por escenarios. Anticipación del cambio

Introducción

Como paso previo a los análisis relacionados con la prospectiva estratégica, se suele interrogar a los grupos de trabajo sobre aquellos cambios que en opinión de cada uno pueden afectar, positiva o negativamente al país, en un horizonte temporal dado: 10, 15, 20, …años. De igual forma se suele recoger aquellos estereotipos que en estos grupos o en sus entornos se tienen sobre personas que comparten ciertas características, cualidades y habilidades, y que buscan justificar o racionalizar una cierta conducta que se manifiesta hacia esas personas

Usando algunos procedimientos relacionados con la minería de texto, he procesado las listas sobre estos cambios y estereotipos elaboradas por estudiantes de la cátedra planificación, entre el 1 y 7 de julio del año 2016. Para ello he recopilado en un solo documento todos los listados elaborados por los estudiantes y he creado así sendos corpus. En uno recogí la percepción sobre los cambios y en el otro, los estereotipos. Finalmente he procesado ambos corpus empleando los paquetes tm, wordcloud, e igraph de R.

En primer lugar haré un análisis exploratorio con la distribución de frecuencia de las palabras más usadas. Estas aparecerán en el centro de la visualización, una nube de palabras, con un tamaño de fuente mayor. Las palabras que tienden a ser usadas con una frecuencia más o menos similar, aparecerán con un mismo color y un mismo tamaño de fuente. Eso indicará conglomerados temáticos. Las palabras menos frecuentes tenderán a ubicarse en la periferia de la nube, y tendrán un tamaño menor. Luego lematizaré las palabras, estos es, me quedaré con la raíz de cada una para tener juntas palabras con diferentes desinencia pero, posiblemente, con un mismo significado (mujer, mujeres, mujercita, por ejemplo, se agrupan bajo muj). Este procedimiento generalmente revela un patrón de distribución de términos distinto al que nos ofrece la sola distribución de frecuencias. Luego, analizaré, usando el indicador tf-idf, para revelar el meta-mensaje presente en el listado. Generalmente, más allá de los términos que más se repiten, existen otros que son bastante frecuentes y nos ofrecen una lectura reposada de lo que en realidad se ha dicho.

Por último, analizo todos los términos según la relación que surgen por el patrón de co-ocurrencia entre cada uno de ellos. Este patrón de co-ocurrencia me indicará qué palabras tienden a forma comunidades temáticas. Es decir, en torno a una palabra dada se agrupan otros términos permitiéndonos identificar temas. También nos permitirá identificar aquellos conceptos que enlanzan diferentes comunidades temáticas y con ello generán el sentido, el significado, del texto. Cuando un término es parte de una comunidad temática, y al mismo tiempo actúa como enlace entre los demás elementos del texto para crear significado, tenemos entonces los elementos claves para la comprensión del corpus analizado.

El análisis obtenido luego de aplicar minería de texto a los listados elaborados por los estudiantes me indican que los cambios previstos, temidos o deseados por ellos, en realidad proyectan hacia el futuro las preocupaciones del día a día. Es decir, cuando analizo detenidamente los temas observo que el grupo sólo ve como futuro lo que ya está en el presente en forma de problemas. Los problemas abrumadores de hoy parecieran ocultar las posibilidades del mañana. Las ideas establecidas sobre lo que nos acontece como país parecen ‘tiranizar’ la mente de cada uno y parecen obligarla a sólo soñar como posibilidad futura aquello que hoy nos hace falta. Es decir, aquello que resuelve los problemas del presente, dejando de lado los posibles problemas del futuro.

Con respecto a los estereotipos, las mujeres, los hombres, las personas, y los negros suelen ser los protagonistas de los estereotipos. Al negro se le señala como pobre, bruto y ladrón. Los hombres aparecen con mayor regularidad asociados a la palabra saben

Anticipar el cambio

Nubes de Palabras

Atendiendo a la frecuencia de las palabras empleadas en las listas elaboradas, los estudiantes consideran que los cambios más importantes, temidos o deseados son:

Cambios previstos, deseados o temidos segun frecuencias absolutas

Cambios previstos, deseados o temidos segun frecuencias absolutas


Los cambios que se mencionaron con mayor frecuencia tienen que ver con el crear-sistema. Le siguen país-creación. Después se obtiene universidad-salud, seguido de un grupo temático conformado por _políticas-ley-públicas__. Desde la perspectiva de la distribución de frecuencias absolutas, los estudiantes consideran que es necesario crear un sistema (a este nivel del análisis no sabemos qué o cuál sistema).

El foco de atención de los cambios parecen ser el país, las universidades así como con la salud. Se observa un conglomerado temático que podemos agrupar bajo el rótulo de planificación: políticas-públicas-ley. Esto sugiere que para los estudiantes los cambios deben planificarse.

Voy a refinar esta primera aproximación lematizando las palabras. Estos es quedándome con las raíces de los términos para que, por ejemplo, publico y públicos aparezcan como un solo tema:

Cambios previstos, deseados o temidos segun frecuencias absolutas y terminos lematizados

Cambios previstos, deseados o temidos segun frecuencias absolutas y terminos lematizados


La lematización de las palabras pone en evidencia el sistema educativo como foco de preocupación de los cambios; luego hay un grupo temático relacionado con el impulso del desarrollo del país: desarroll-cre-pais. Lo público también resalta como necesidad y posibilidad de cambio. El siguiente grupo temático se relaciona con la planificación: plan-nuev-reform-polit.

Finalmente, haré un análisis más exhaustivo, ponderando los términos de tal forma que se le de importancia a aquellos que siendo frecuentes quedan relegados por otros que suelen tener más ‘punch’:

El tema de preocupación central relacionados con los cambios, más allá de lo que se dice mucho, es, en dos platos, 1) crear el sistema; 2) creación, 3) desarrollo-país, 4) ley; 5) fomentar-digno-red, 6) través-parte-ciudadana-revisión.

Al aplicar este mismo indicador a las palabras lematizadas obtengo como fuente principal de preocupación:

El sistema educativo y crear desarrollo para el país.

En conclusión y leyendo en conjunto las nubes,los alumnos desean, preven o temen cambios que tienen que ver con la creación de un sistema, y desarrollar el país. Parece ser que este sistema, este desarrollo, debería fomentar redes, tener como objeto la educaión y la salud. y debe además integrar reformas, crear nuevos sistemas, todo ello de manera planificada.

Redes textuales

Quiero observar los cambios que preocupan a los estudiantes en contexto. Esto es, quiero no sólo ver cuáles son las palabras más usadas, sino, además, la relación entre esas palabras. Primero haré una nube textual con los términos tal como han sido escritos por los estudiantes. Posteriormente lematizaré el texto para tratar de obtener otra perspectiva sobre los cambios.

Los cinco temas que más aparecen en la redacción de los cambios, vinculando diferentes comunidades temáticas son pais-desarrollo-desarrollar-sistema-educacion. Los cinco palabras más relevantes en torno a los cuales se conforman diferentes comunidades temáticas son pais-desarrollo-educacion-creacion-universidades. Las palabras claves en el listado de cambios son, entonces, pais-desarrollo-educacion. Estos tres tópicos aparecen en medio de la mayoría de las palabras empleadas en las listas, y a la vez definen comunidades temática.

Para el grupo, por tanto, el cambio que más desafios, o temores, genera es desarrollar al país. La educación y las universidades parecen ser los medios idóneos así como la elaboración de políticas públicas, planeas, programas. Llama la atención la ubicación marginal de la producción y de la inversión, al igual que el de la tecnología. Los estudiantes parecieran no percibir estos tres temas como centrales para el porvenir del país

Voy a visualizar las comunidades temáticas que emergen de este grafo textual:

Hay una comunidad temática que parece sugerir la modernización de la red tecnológica de las universidades. Lo ue al parecer podría ayudar a incrementar la producción del país. Otra comunidad nos habla de reformar la salud pública, lo que podría hacerse tal vez a través de una ley. Una tercera comunidad nos indica el desarrollo de la educación y de nuevas tecnologías. Posiblemente se trate de incorporar en la educación esas nuevas tecnologías. La cuarta comunidad sugiere la creación de un sistema nacional de registro y las dos últimas comunidades apuntan hacia la infraectructura de energía y a la renovación de la infraestructura.

Voy a analizar ahora el texto, pero lematizando las palabras

Desde esta óptica, los cinco tópcios con mayor intermediación son progr-tecnolog-cre-permit-desarroll. Los tópicos en torno a los cuales se forman comunidades son desarroll-nacional-tecnolog-pais-cre. Las palabras claves son prog-tecnolog-cre. Al lematizar el texto encontramos que el cambio que más se desea, teme o preve es la programacion del crecimiento tecnológico. De nuevo, los temas relacionados con la producción no están entre las mayores preocupaciones.

Analizo ahora las comunidades temáticas, y dejaré que el lector las interprete:

Observando tanto lasnubes de palabras como las redes textuales , concluyo que os cambios previstos por los alumnos en realidad proyectan hacia el futuro las preocupaciones del día a día. Es decir, el grupo sólo ve como futuro lo que ya está en el presente en forma de problemas. Los problemas abrumadores de hoy parecieran ocultar las posibilidades del mañana. Las ideas establecidas sobre lo que nos acontece como país, parecen ‘tiranizar’ la mente de los alumnos y parecen obligarla a sólo soñar aquellos de lo que hoy carecemos, o se les ha enseñado a pensar que se carece de esas cosas. Los estudiantes no parecen presentir semillas de cambios. Solo ‘ven’ las mismas tendencias.

Identificar los estereotipos

A pesar de que estamos alerta sobre el peso de los estereotipos y en muchas ocasiones logramos reaccionar ante ellos, generalmente estas creencias siguen circulando libremente y no siempre son cuestionadas. Crearé la nube con las palabras más frecuentes empleadas en los estereotipos listados por los estudiantes.

Lo primero que me ha llamado llama la atención al obtener la nube, es que los estereotipos se refieren a los hombres, luego a personas en general. Obtengo ahora el patrón de las palbras una vez que han sido lematizadas:

Las mujeres y los hombres aparecen como el primer grupo señalado por los estereotipos, seguidos de las personas. Después aparece una comunidad temática que incluye estudiantes, niños, negros, venezolanos y ricos, así como lo que parece ser que se dice de ellos: bruto, mal, solo. El siguiente grupo temático incluye a la gente, sociologos, homosexuales, políticos, gordos, chinos, pobres, chavistas, políticos y lo que posiblemente se dice de ellos: llorones, saben, flojos, corruptos, ladrones.

Obtengo ahora el metamensaje en estos estereotipos:

El metamensaje presente en los esterotipos nos develan a los ricos, los negros, los pobres y las personas como los más señalados. De este grupo parece decirse que son ladrones y, o, brutos. El siguiente grupo, foco de los estereotipos son los chavistas, los chinos, y todas. Parece indicarse que este grupo es corrupto y, o, lloran. El siguiente foco corresponde a la gente, las niñas, los gordos, los nerds, quienes parecieran que son flojos, ‘sabiondos’ y mal.

Visualizo ahora la relación entre estos estereotipos

Las comunidades temáticas más importantes son mujeres-personas-hombres-ser; las palabras que con mayor regularidad unen diferentes comunidades temáticas son : personas-ser-todas-ladrones-estudian-negros. Las palabras claves que definen el significado de estos estereotipos son personas-ser-ladrones. Los estereotipos entonces generalizan e incluyen a todo un grupo en su señalamiento. Así, los negros son brutos,pobres y ladrones. Los ricos también son ladrones. Los hombres aparecen con más frecuencia relacionados con la palabra saben

¿Por qué las mujeres son el tema ‘favorito’ en los estereotipos que hemos recogido? ¿qué consecuencias tiene asociar a los negros con pobreza, brutalidad y con los ladrones? ¿Por qué el ladrón es el calificativo recurrente? ¿Qué consecuencias tienen estos estereotipos?

Obtengo ahora la red textual a partir de las palabras lematizadas:

Desde esta óptica, los estereotipos más resaltantes parecen señalar que: - Los estudiantes de sociología son gente floja - Lo venezolanos son vivos y son flojos - Las pesonas pobre son malas y vivas - Los negros son ladrones y malos - La gente rica esladrona, viva y mala - Los chinos saben, son ladrones y son malos

Visualizo ahora las comunidades temáticas

Se identifican cuatro comunidades. En una están presentes hombres, mueres y homosexuales. La palabra mujer sería mucho más grande de no ser por un error de lematización. Esta comunidad tiene como característica los términos sol y sab. Llama la atención el fuerte vínculo entre hombre-homosexual-muj-mujer.

La segunda comunidad, más grande, incluye a las personas, los venezolanos, los sociólogos, la gente, los negros, los ricos, los chinos y los pobres. Las caracterizaciones de este grupo las componen las palabras _brut-floj-mal-viv-ladron.

La tercera comunidad la componen los venezolanos que son calificados de floj. La última, se compone de estudiantes y gord