Medidas de similitud y anĂ¡lisis de cluster
R package ‘recommeder’
Beatriz Valdez
En el post sobre recomendadores mencionamos tres distancias, entre las muchas posibles, que pueden emplearse para recomendar un producto: la distancia euclĂdea, la distancia coseno y la distancia de pearson. En este post exploro un poco mĂ¡s estas distancias, empleando la data sobre crĂticos y pelĂculas que usĂ© en aquel post y la visualizo empleando cluster jerĂ¡rquicos.
Medidas de distancias
MedĂ las similitudes o distancias entre los crĂticos entre sĂ y entre las pelĂculas entre sĂ. Existen numerosas medidas que podrĂan emplearse, tres de ellas, las mĂ¡s empleadas son las distancia euclĂdea, coseno y correlaciĂ³n. Veamos su aplicaciĂ³n con la data sobre crĂticos y pelĂculas empleadas en el post anterior.
selecciono <- as.data.frame(criticos[, 2:7],
row.names = criticos$persona)
# euclidea
eucli <-dist(selecciono, method = "Euclidean")
# coseno
cosen <- dist(selecciono, method = "cosine")
# correlacion
Pear <- dist(selecciono, method = "Pearson")
Visualizo para observar las diferencias entre los resultados
plot(hclust(eucli), sub="Ejemplo con la distancia 'Euclidea'",
main = "Data: criticos", xlab = "AplicaciĂ³n de medida de distancia",
ylab = "Altura")
plot(hclust(Pear), sub="Ejemplo con la medida 'CorrelaciĂ³n de Pearson'",
main = "Data: criticos", xlab = "AplicaciĂ³n de medida de similitud",
ylab = "Altura")
plot(hclust(cosen), sub="Ejemplo con la medida 'Pearson'",
main = "Data: criticos", xlab = "AplicaciĂ³n de medida de similitud",
ylab = "Altura")
Hallazgos
Los resultados de la distancia euclidea y de la distancia de Pearson son parecidos. De acuerdo con estas distancias, los crĂticos Lisa y Mick, por un lado, y, por el otro, Gene y Jack son parecidos en sus puntuaciones. A la vez, estos dos pares de crĂticos comparten ciertas similitudes en sus valoraciones de las pelĂculas. Toby parece ser un crĂtico con gustos alejados del resto. La distancia coseno, sin embargo, señala un panorama ligeramente distintos. De acuerdo con esta distancia, la crĂtico Lisa parece tener puntuaciones muy atĂpica con respecto al resto, y sĂ³lo Michael y Claudia parecen ser los que puntuaron las pelĂculas de forma bastante similar.
El colorario es, algo de suyo evidente: necesitamos reportar quĂ© tipo de distancia se emplean en los anĂ¡lisis, pues los resultados pueden ser muy distintos aĂºn empleando los mismos datos.
Comentarios