K -means clustering MATLAB Tutorial

Usted podría menudo desean dividir sus datos en grupos significativos sobre la base de un cierto grado de "cercanía ". Sin embargo, decidir cómo ir realmente acerca de la división es muy subjetivo y por lo tanto abierto a las críticas de otros investigadores. La solución a este problema es k-means clustering. K-means clustering es un algoritmo que divide automáticamente los datos para usted. Es una forma de aprendizaje automático que da una partición de datos óptima bajo un conjunto de restricciones . MATLAB ofrece una función de agrupamiento k - significa que se puede aplicar fácilmente a su conjunto de datos. Instrucciones Matemáticas 1

Leer sus datos en MATLAB como una matriz . Busque el archivo de datos en su computadora y recuerde el nombre del archivo ( por ejemplo, " Datafile.dat ") . Utilice el comando " [ dat, vars , casos ] = tblread (nombre de archivo ) " donde " filename" es el nombre del archivo que contiene los datos , tales como " Datafile.dat . " Pulsa enter y la variable " dat " será una matriz de datos que contiene los datos.
2

Decidir el número de medios para el k-means algoritmo de clustering . El número de medios que usted elija será exactamente igual al número de grupos cedió. Utilice las propiedades de sus datos y el problema en cuestión para decidir cuántos grupos que desea particionar los datos.
3

Decida cómo el k-means clustering algoritmo debe calcular la distancia entre puntos . Hay dos métodos comunes para calcular la distancia de este algoritmo : euclidianas y correlacional . Euclidiana sólo se ve a la distancia "física" entre los puntos como si los graficaste en un plano cartesiano. Distancia de correlación tiene en cuenta la variación de los datos y puede ser más adecuado cuando se trata de datos que tiene una distribución conocida (como la distribución normal).
4

Ejecute el k - means clustering algoritmo . Utilice el comando " ind = KMeans ( dat, g, " distancia " ) " donde " g" es un número que representa el número de grupos que desea y "distancia " es el tipo de distancia que desea que el k-means algoritmo de clustering para usar : " sqEuclidean " para la distancia euclídea y la " correlación " para la distancia de correlación

.