Medidas de similitud y anĂ¡lisis de cluster

recomendadores

En el post sobre recomendadores mencionamos tres distancias, entre las muchas posibles, que pueden emplearse para recomendar un producto: la distancia euclĂ­dea, la distancia coseno y la distancia de pearson. En este post exploro un poco mĂ¡s estas distancias, empleando la data sobre crĂ­ticos y pelĂ­culas que usĂ© en aquel post y la visualizo empleando cluster jerĂ¡rquicos.

Medidas de distancias

MedĂ­ las similitudes o distancias entre los crĂ­ticos entre sĂ­ y entre las pelĂ­culas entre sĂ­. Existen numerosas medidas que podrĂ­an emplearse, tres de ellas, las mĂ¡s empleadas son las distancia euclĂ­dea, coseno y correlaciĂ³n. Veamos su aplicaciĂ³n con la data sobre crĂ­ticos y pelĂ­culas empleadas en el post anterior.

selecciono <- as.data.frame(criticos[, 2:7],
                            row.names = criticos$persona)

# euclidea
eucli <-dist(selecciono, method = "Euclidean")

# coseno
cosen <- dist(selecciono, method = "cosine")

# correlacion
Pear <- dist(selecciono, method = "Pearson")

Visualizo para observar las diferencias entre los resultados

plot(hclust(eucli), sub="Ejemplo con la distancia 'Euclidea'",
     main = "Data: criticos", xlab = "AplicaciĂ³n de medida de distancia",
     ylab = "Altura")

plot(hclust(Pear), sub="Ejemplo con la medida 'CorrelaciĂ³n de Pearson'",
     main = "Data: criticos", xlab = "AplicaciĂ³n de medida de similitud",
     ylab = "Altura")

plot(hclust(cosen), sub="Ejemplo con la medida 'Pearson'",
     main = "Data: criticos", xlab = "AplicaciĂ³n de medida de similitud",
     ylab = "Altura")

Hallazgos

Los resultados de la distancia euclidea y de la distancia de Pearson son parecidos. De acuerdo con estas distancias, los crĂ­ticos Lisa y Mick, por un lado, y, por el otro, Gene y Jack son parecidos en sus puntuaciones. A la vez, estos dos pares de crĂ­ticos comparten ciertas similitudes en sus valoraciones de las pelĂ­culas. Toby parece ser un crĂ­tico con gustos alejados del resto. La distancia coseno, sin embargo, señala un panorama ligeramente distintos. De acuerdo con esta distancia, la crĂ­tico Lisa parece tener puntuaciones muy atĂ­pica con respecto al resto, y sĂ³lo Michael y Claudia parecen ser los que puntuaron las pelĂ­culas de forma bastante similar.

El colorario es, algo de suyo evidente: necesitamos reportar quĂ© tipo de distancia se emplean en los anĂ¡lisis, pues los resultados pueden ser muy distintos aĂºn empleando los mismos datos.

Comentarios

Entradas mĂ¡s populares de este blog

Cluster jerĂ¡rquico

FunciĂ³n "Recode" del paqute dplyr