Skip to main content

K平均クラスタリングによるデータマイニング

アルゴリズムがデータを分ける様子を可視化した【K-means】【クラスタリング】 (六月 2026)

アルゴリズムがデータを分ける様子を可視化した【K-means】【クラスタリング】 (六月 2026)
Anonim

ザ k- クラスタリングアルゴリズムとは、データマイニングと機械学習のツールであり、関係を事前に知ることなく、観察を関連する観測のグループに分類するために使用されます。サンプリングすることによって、アルゴリズムは、データが属するカテゴリまたはクラスタを、値によって定義されるクラスタの数とともに表示しようとします k。

ザ k- アルゴリズムが最も簡単なクラスタリング手法の1つであり、医用画像、バイオメトリクス、および関連分野で一般的に使用されていることを意味します。の利点 k- クラスター化とは、アルゴリズムの管理された形式を使用して、開始時のデータについてアルゴリズムに指示するのではなく、自分のデータについて(教師なしの形式を使用して)伝えるということです。

1957年にStuart Lloydによって最初に提案されたアルゴリズムであるため、Lloydのアルゴリズム、特にコンピュータサイエンスのサークルでも呼ばれます。「k-means」という用語は、1967年にJames McQueenによって作成されました。

K-Meansアルゴリズムの機能

ザ k- アルゴリズムがその操作方法からその名前を得る進化的アルゴリズムであることを意味します。このアルゴリズムは、 k グループ k 入力パラメータとして提供される。その後、観測の各クラスタの平均値に基づいて各観測値をクラスタに割り当てます。クラスタの平均値が再計算され、プロセスが再び開始されます。アルゴリズムの仕組みは次のとおりです。

  1. アルゴリズムは任意に選択する k 初期クラスタ中心(手段)としての点。
  2. データセットの各点は、各点と各クラスタ中心間のユークリッド距離に基づいて、閉じたクラスタに割り当てられます。
  3. 各クラスタ中心は、そのクラスタ内の点の平均として再計算されます。
  4. ステップ2と3は、クラスタが収束するまで繰り返されます。コンバージェンスは実装によって異なるように定義することができますが、通常は、ステップ2と3を繰り返すか、またはクラスタの定義に変更が加えられていない場合でも、クラスタを変更する観察もありません。

クラスタ数の選択

主な欠点の1つ k- クラスター化というのは、クラスターの数をアルゴリズムの入力として指定する必要があるということです。設計通りに、アルゴリズムはクラスタの適切な数を決定することができず、事前にこれを識別するためにユーザに依存する。

たとえば、男性または女性としてバイナリの性同一性に基づいてクラスタ化されるグループの人がいる場合は、 k- 入力を使用するアルゴリズムを意味する k = 3 2つだけの場合には3つのクラスターに、または k = 2、 より自然なフィット感を提供します。

同様に、個人のグループが家の状態に基づいて簡単にクラスタ化され、 k- 入力を伴うアルゴリズムを意味する k = 20、 その結果はあまりにも一般化して有効になるかもしれない。

このため、さまざまな値を試してみることをおすすめします。 k データに最も適した値を特定します。また、機械学習の知識のために、他のデータマイニングアルゴリズムの使用を探求することもできます。