Что такое кластеризация K-средних?

Интеллектуальный анализ данных с алгоритмом K-Means

k – означает, что алгоритм кластеризации – это инструмент для интеллектуального анализа данных и машинного обучения, используемый для группировки наблюдений в группы связанных наблюдений без какого-либо предварительного знания этих отношений. При выборке алгоритм пытается показать, к какой категории или кластеру относятся данные, а количество кластеров определяется значением k.

Алгоритм k – означает, что это один из самых простых методов кластеризации, и он обычно используется в медицинской визуализации, биометрии и смежных областях. Преимущество k – в том, что кластеризация заключается в том, что она сообщает о ваших данных (используя их форму без присмотра), а не о необходимости инструктировать алгоритм о данных в начале (используя контролируемую форму алгоритма). ,

Его иногда называют алгоритмом Ллойда, особенно в кругах компьютерных наук, потому что стандартный алгоритм был впервые предложен Стюартом Ллойдом в 1957 году. Термин «k-средних» был придуман в 1967 году Джеймсом МакКуином.

Как функционирует алгоритм K-средних

k – означает, что алгоритм – это эволюционный алгоритм, который получил свое название от метода работы. Алгоритм группирует наблюдения в группы k , где k предоставляется в качестве входного параметра. Затем он назначает каждое наблюдение кластерам на основе близости наблюдения к среднему значению кластера. Среднее значение кластера затем пересчитывается, и процесс начинается снова. Вот как работает алгоритм:

  1. Алгоритм произвольно выбирает k точек в качестве начальных центров кластера (средние значения).
  2. Каждая точка в наборе данных назначается замкнутому кластеру на основе евклидова расстояния между каждой точкой и каждым центром кластера.
  3. Каждый центр кластера пересчитывается как среднее значение точек в этом кластере.
  4. Шаги 2 и 3 повторяются, пока кластеры не сходятся. Конвергенция может быть определена по-разному в зависимости от реализации, но обычно это означает, что либо наблюдения не изменяют кластеры, когда повторяются шаги 2 и 3, либо что изменения не вносят существенных различий в определение кластеров.

Выбор количества кластеров

Одним из основных недостатков k – означает, что кластеризация заключается в том, что вы должны указать количество кластеров в качестве входных данных для алгоритма. Как и предполагалось, алгоритм не способен определять соответствующее количество кластеров и зависит от пользователя, чтобы определить это заранее.

Например, если у вас была группа людей, которые должны быть кластеризованы на основе бинарной гендерной идентичности как мужчины или женщины, вызов алгоритма k – означает использование ввода k = 3 вынудит людей разделиться на три группы, когда только два, или ввод k = 2, обеспечит более естественное соответствие.

Точно так же, если группа лиц была легко сгруппирована на основе исходного состояния, и вы вызвали алгоритм k – означает с вводом k = 20, результаты могут быть слишком обобщенными, чтобы быть эффективным.

По этой причине часто бывает полезно поэкспериментировать с различными значениями k , чтобы определить значение, наиболее подходящее для ваших данных. Вы также можете изучить использование других алгоритмов интеллектуального анализа данных в своем стремлении к знаниям машинного обучения.

Оцените статью
Solutics.ru
Добавить комментарий