Medidas de similitud y anĂ¡lisis de cluster

recomendadores

En el post sobre recomendadores mencionamos tres distancias, entre las muchas posibles, que pueden emplearse para recomendar un producto: la distancia euclĂ­dea, la distancia coseno y la distancia de pearson. En este post exploro un poco mĂ¡s estas distancias, empleando la data sobre crĂ­ticos y pelĂ­culas que usĂ© en aquel post y la visualizo empleando cluster jerĂ¡rquicos.

Medidas de distancias

MedĂ­ las similitudes o distancias entre los crĂ­ticos entre sĂ­ y entre las pelĂ­culas entre sĂ­. Existen numerosas medidas que podrĂ­an emplearse, tres de ellas, las mĂ¡s empleadas son las distancia euclĂ­dea, coseno y correlaciĂ³n. Veamos su aplicaciĂ³n con la data sobre crĂ­ticos y pelĂ­culas empleadas en el post anterior.

selecciono <- as.data.frame(criticos[, 2:7],
                            row.names = criticos$persona)

# euclidea
eucli <-dist(selecciono, method = "Euclidean")

# coseno
cosen <- dist(selecciono, method = "cosine")

# correlacion
Pear <- dist(selecciono, method = "Pearson")

Visualizo para observar las diferencias entre los resultados

plot(hclust(eucli), sub="Ejemplo con la distancia 'Euclidea'",
     main = "Data: criticos", xlab = "AplicaciĂ³n de medida de distancia",
     ylab = "Altura")

plot(hclust(Pear), sub="Ejemplo con la medida 'CorrelaciĂ³n de Pearson'",
     main = "Data: criticos", xlab = "AplicaciĂ³n de medida de similitud",
     ylab = "Altura")

plot(hclust(cosen), sub="Ejemplo con la medida 'Pearson'",
     main = "Data: criticos", xlab = "AplicaciĂ³n de medida de similitud",
     ylab = "Altura")

Hallazgos

Los resultados de la distancia euclidea y de la distancia de Pearson son parecidos. De acuerdo con estas distancias, los crĂ­ticos Lisa y Mick, por un lado, y, por el otro, Gene y Jack son parecidos en sus puntuaciones. A la vez, estos dos pares de crĂ­ticos comparten ciertas similitudes en sus valoraciones de las pelĂ­culas. Toby parece ser un crĂ­tico con gustos alejados del resto. La distancia coseno, sin embargo, señala un panorama ligeramente distintos. De acuerdo con esta distancia, la crĂ­tico Lisa parece tener puntuaciones muy atĂ­pica con respecto al resto, y sĂ³lo Michael y Claudia parecen ser los que puntuaron las pelĂ­culas de forma bastante similar.

El colorario es, algo de suyo evidente: necesitamos reportar quĂ© tipo de distancia se emplean en los anĂ¡lisis, pues los resultados pueden ser muy distintos aĂºn empleando los mismos datos.

Comentarios

Entradas mĂ¡s populares de este blog

Cluster jerĂ¡rquico

Venezuela. Entidades federales segĂºn nĂºmero de municipios