비디오: K-means Clustering– 머신러닝의 6가지 기법 #1 2024
클러스터링 알고리즘을 사용하여 데이터 세트를 사전 정의 된 속성과 가장 유사한 데이터 포인트 클러스터로 세분화합니다. 특정 기능에 대한 여러 속성을 설명하고 속성 유사성에 따라 데이터 요소를 그룹화하려는 데이터 세트가있는 경우 클러스터링 알고리즘을 사용하십시오.
Country Income과 Education 데이터 세트의 간단한 산점도는 여기에서 볼 수있는 차트를 산출합니다.
감독되지 않은 클러스터링에서는이 데이터로 시작한 다음 하위 집합으로 나눕니다. 이러한 하위 집합은 클러스터 라고하며 가장 비슷한 데이터 요소로 구성됩니다. 맨 아래에 저소득층과 교육이있는 두 개 이상의 클러스터가있는 것으로 보이며 고등 교육 국가는 저소득층과 고소득자로 나눌 수있는 것처럼 보입니다.
다음 그림은이 데이터 세트의 클러스터를 시각적으로 추정 한 결과입니다. 클러스터링에 대한 시각적 추정을 생성 할 수 있지만 클러스터를 생성하는 알고리즘을 사용하여 더 큰 규모의 데이터 세트를 처리 할 때 훨씬 정확한 결과를 얻을 수 있습니다. 시각적 추정은 최소한의 복잡성을 가진 작은 데이터 세트에만 유용합니다. 알고리즘 - 정확하고 반복 가능한 결과를 생성하며, 알고리즘을 사용하여 데이터 집합 내의 여러 차원의 데이터에 대한 클러스터링을 생성 할 수 있습니다.
분석중인 데이터 집합을 알고 이해합니다.
클러스터링 알고리즘을 실행하기 전에 하위 집합 (클러스터)의 성격에 대해 정확히 알지 못합니다. 종종 알고리즘을 실행하기 전에 데이터 집합에 몇 개의 하위 집합이 있는지조차 알지 못합니다.
-
하위 집합 (클러스터)은 분석중인 하나의 데이터 집합에서만 결정됩니다.
-
귀하의 목표는 하나의 데이터 세트와이 데이터 세트의 하위 세트를 설명하는 모델을 결정하는 것입니다.
-
더 많은 데이터를 추가하는 경우 완벽하고 정확한 모델 결과를 얻기 위해 분석을 처음부터 다시 실행해야합니다.