jueves, 6 de junio de 2024

Medidas de similitud y análisis de cluster

recomendadores

En el post sobre recomendadores mencionamos tres distancias, entre las muchas posibles, que pueden emplearse para recomendar un producto: la distancia euclídea, la distancia coseno y la distancia de pearson. En este post exploro un poco más estas distancias, empleando la data sobre críticos y películas que usé en aquel post y la visualizo empleando cluster jerárquicos.

Medidas de distancias

Medí las similitudes o distancias entre los críticos entre sí y entre las películas entre sí. Existen numerosas medidas que podrían emplearse, tres de ellas, las más empleadas son las distancia euclídea, coseno y correlación. Veamos su aplicación con la data sobre críticos y películas empleadas en el post anterior.

selecciono <- as.data.frame(criticos[, 2:7],
                            row.names = criticos$persona)

# euclidea
eucli <-dist(selecciono, method = "Euclidean")

# coseno
cosen <- dist(selecciono, method = "cosine")

# correlacion
Pear <- dist(selecciono, method = "Pearson")

Visualizo para observar las diferencias entre los resultados

plot(hclust(eucli), sub="Ejemplo con la distancia 'Euclidea'",
     main = "Data: criticos", xlab = "Aplicación de medida de distancia",
     ylab = "Altura")

plot(hclust(Pear), sub="Ejemplo con la medida 'Correlación de Pearson'",
     main = "Data: criticos", xlab = "Aplicación de medida de similitud",
     ylab = "Altura")

plot(hclust(cosen), sub="Ejemplo con la medida 'Pearson'",
     main = "Data: criticos", xlab = "Aplicación de medida de similitud",
     ylab = "Altura")

Hallazgos

Los resultados de la distancia euclidea y de la distancia de Pearson son parecidos. De acuerdo con estas distancias, los críticos Lisa y Mick, por un lado, y, por el otro, Gene y Jack son parecidos en sus puntuaciones. A la vez, estos dos pares de críticos comparten ciertas similitudes en sus valoraciones de las películas. Toby parece ser un crítico con gustos alejados del resto. La distancia coseno, sin embargo, señala un panorama ligeramente distintos. De acuerdo con esta distancia, la crítico Lisa parece tener puntuaciones muy atípica con respecto al resto, y sólo Michael y Claudia parecen ser los que puntuaron las películas de forma bastante similar.

El colorario es, algo de suyo evidente: necesitamos reportar qué tipo de distancia se emplean en los análisis, pues los resultados pueden ser muy distintos aún empleando los mismos datos.