Кластеризация методом k-средних

Кластеризация — это разделение множества входных векторов на группы (кластеры) по степени «схожести» друг на друга.

Кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Данный метод анализа данных используется во многих отраслях от аналитики до маркетинга.

Одним из наиболее простых алгоритмов является метод k-средних. Он использует понятие центроида кластера и информацию о расстояние от точки до центра кластера. В качестве расстояний обычно берётся расстояние Евклида, Чёбешева или Манхэттена. Алгоритм, как следует из названия, разбивает множество входных точек на k кластеров, что является как плюсом алгоритма, так и небольшим минусом, если заранее неизвестно необходимое количество кластеров.