jueves, 6 de junio de 2024

Computational Social Science

Análisis de componentes principales

La analítica de texto (también conocida como minería de texto o mapeo textual) permite descubrir patrones en los temas de conversación sostenida por grupos específicos en redes sociales, blogs, emails, cartas, y otros medios. El análisis de estas conversaciones facilita saber con la mayor antelación posible lo que piensan y extraer sus deseos y necesidades. Estos elementos se pueden convertir potencialmente en alertas tempranas: sus quejas o expresiones de satisfacción que permitirán a la organización tomar decisiones. La transformación de esa data textual, data no estructurada, en data estructurada es un servicio muy valorado por empresas, organizaciones, actores políticos, academias, e incluso centros de investigación. De hecho, este procedimiento está en la base de los diferentes modelos de inteligencia artificial, en particular de los denominados "large Language Models". El procedimiento nos da la posibilidad de monitorear y analizar, Entre otras posibilidades:

  • reputación institucional: qué se dice, cuando, por quién;
  • comportamiento de los consumidores;
  • quejas o cumplidos sobre los productor/servicios;
  • feedback de los clientes y usuarios

En el contexto de la planificación, la analítica de texto es una herramienta útil en las diferenates fases del procesp. Con los resultados se puede, por ejemplo, proponer acciones para retener clientes, asegurar su lealtad, predecir conductas, conocer sentimientos, temas de conversación con respecto a la empresa que son habituales, etc., de modo que con base en estos análisis se puedan tomar decisiones.

En este post conversaré sobre algunos procedimientos de analítica textual. En concreto del uso del análisis de componentes principales con el cual no sólo reducimos las dimensiones de la data textual, sino que además nos puede ayudar, entre otras posibilidades, a verificar estilos narrativos, detectar autoría (quién ha dicho algo con mayor probabilidad, opiniones emitidas por mujeres en contraste con opiniones emitidas por hombres); a segmentar y elaborar cluster; a definir qué variables y qué individuos marcan las diferencias y similitudes entre los clusters. De esta forma, puede ser una herramienta útil para determinar en un volumen amplio de texto las palabras (preocupaciones, quejas, ideas) características y los grupos que manifiestan tales ideas


Existen muchas aproximaciones para analizar data no estructurada. El procedimiento más común y que hemos empleado en diferentes análisis en este blog sigue el postulado del paradigma "bag of words". La obtención de patrones valiosos se logra, una vez pre-procesada la data textual, con la aplicación de diferentes algorritmos con los que podemos efectuar, entre otras posibilidades, análisis distribucional, absoluto y ponderado: frecuencia de ocurrencia de términos, frecuencia de co-ocurrencias, asociaciones y distancias entre las palabras.

Una de las principales desventajas del paradigma "bag or words" es que genera un listado de palabras separadas de su contexto. Esto es, hay una representación basada en los caracteres, pero de cuya información posicional se ha hecho abstracción. El análisis de bigramas, trigramas, y otros conglomerados nos permite reintroducir la información posicional al observar la secuencia de palabras que tienden a co-ocurrir en el texto. Podemos así no sólo observar la secuencia consecutiva de cada término, sino también la asociación y la fuerza de asociación entre una palabra de interés y otras, a partir de cierto nivel de correlación

El análisis de componentes principales (ACP) es parte de una familia de algoritmos no supervisado de machine learning (aprendizaje automático) con el que se puede investigar datos multidimensionales con variables cuantitativas y, variables cualitativas. Este método transforma un conjunto de variables originales correlacionadas entre sí en un conjunto sintético de variables no correlacionadas, los factores o componentes principales. Dicho de otra forma, con el análisis de componentes principales ayuda a reducir las características o dimensiones de las variables reteniendo el máximo de información posible.

El análisis de componentes principales se emplea en la analítica de texto para, entre otros muchos usos, verificar estilos narrativos, detectar autoría, segmentar y elaborar clusters, así como para definir qué variables y qué individuos marcan las diferencias y similitudes entre los clusters. De esta forma, puede ser una herramienta útil para determinar en un volumen amplio de texto las palabras (preocupaciones, quejas, ideas) características y los grupos que manifiestan tales ideas.

Componentes principales. Ejemplo

Tengo datos provenientes de distintas comunidades localizadas en algunos estados de Venezuela en la que diversas comunidades opinaron sobre los problemas más urgentes en su localidad. Luego de pre-procesar la data siguiendo el modelo "bag of words" procedí a aplicar un análisis de correspondencia empleando el paquete base de R

.

Analizo la representación de los Estados para evaluar las similitudes y diferencias entre ellos con base en las palabras empleadas por las comunidades al describir los problemas. Por otro lado, verifico también el porcentaje de varianza explicada con la representación, pues de esta manera podré saber qué tanta información se ha retenido.

Nota:La representación ha retenido casi el 60% de la información original.Hay una excelente representación de Monagas, Mérida, Bolívar, y Anzoátegui en la primera dimensión. Estas cuatro entidades, además tienen una alta correlación positiva entre sí, lo que sugiere que las palabras empleadas para describir los problemas en ellas suelen ser semejantes. Zulia, Caracas, Trujillo, Barinas, Lara y Sucre, tienen una representación de menor calidad en esta dimensión. Caracas y Bolívar; Barinas y Trujillo tienden a estar positivamente correlacionadas. Las palabras empleadas para describir los problemas de Caracas y Bolívar suelen ser diferentes a las que se usaron para describir los problemas de Sucre.

Considero ahora las palabras representativas de los diversos problemas planteados:

Nota: Hay palabras que se comportan como valores extremos: falta, alimentos, público, debido, comunidad, transporte, agua, mala, ausencia. Son palabras que han sido mencionadas con mayor frecuencia en las diferentes entidades

Para mejorar la legibilidad de la imagen, me quedaré con las palabras que tengan una correlación igual o superior al 70%. De este modo podré valorar mejor los problemas centrales de acuerdo con las diferentes comunidades en los estados en los que se hizo este estudio:

Nota:Al seleccionar las palabras con mayor correlación entre sí (70% o más) obtengo los términos que caracterizan los problemas en las distintas entidades. Hay tres grupos temáticos: al primero lo puedo describrir como grupo de problemas específicos: alimentos, agua y transporte.El segundo, situación país: falta, unión, instituciones, educación, justicia, hora y día; el tercero, problemas sistémicos: trabajo, formación, básica, apagones, camiones, cuenta, costos

Hallazgos

El análisis de los gráficos me permiten puntualizar, grosso modo, que Carabobo, Barinas y Bolívar, y, los otros Estados ubicadas en el mismo cuadrante, son entidades preocupadas por problemas específicos, lo que sugiría, además, que posiblemente no presentan dificultades en otras áreas, o que de existir, son manejables. Monagas, Mérida, Bolívar, Anzoátegui, Táchira y Zulia, son entidades que se preocupan por la situación país. Presentan una visión más global de la problemática que los aqueja. En estas entidades la palabra "falta" está sobre representada. Lo que sugiere que se han acumulado un número considerable de carencias. Por otra parte, la presencia de los términos "día" y "hora", refuerza la percepción de que todos esos problemas se manifiestan de manera sostenida todos los días, en cualquier momento.

No puedo ubicarse ninguna de las entidades en forma clara con los problemas sistémicos. Examinando los términos, noto que los problemas descritos son más concretos en relación con los problemas del cluster situación país. Aquí están presentes temas como el trabajo, la (educación) básica, la formación, los camiones y los costos. Parecen ser problemas mencionados en pocos Estados. Pero sí puedo decir, que si en las entidades predominan preocupaciones por la situación país, no tenderá haber preocupación por problemas sistémicos. Las entidades en las que predominan los problemas caracterizados por situación país, parecieran haber empezado a experimentar de forma reiteradas las faltas y deficiencias; en tanto que en donde se mencionaron problemas sistémicos parecen tener una afectación de mayor data.

No hay comentarios.: