데이터 과학에서 사용되는 클러스터링 알고리즘 - 더미

비디오: K-means Clustering– 머신러닝의 6가지 기법 #1 2024

클러스터링 알고리즘을 사용하여 데이터 세트를 사전 정의 된 속성과 가장 유사한 데이터 포인트 클러스터로 세분화합니다. 특정 기능에 대한 여러 속성을 설명하고 속성 유사성에 따라 데이터 요소를 그룹화하려는 데이터 세트가있는 경우 클러스터링 알고리즘을 사용하십시오.

Country Income과 Education 데이터 세트의 간단한 산점도는 여기에서 볼 수있는 차트를 산출합니다.

감독되지 않은 클러스터링에서는이 데이터로 시작한 다음 하위 집합으로 나눕니다. 이러한 하위 집합은 클러스터 라고하며 가장 비슷한 데이터 요소로 구성됩니다. 맨 아래에 저소득층과 교육이있는 두 개 이상의 클러스터가있는 것으로 보이며 고등 교육 국가는 저소득층과 고소득자로 나눌 수있는 것처럼 보입니다.

다음 그림은이 데이터 세트의 클러스터를 시각적으로 추정 한 결과입니다. 클러스터링에 대한 시각적 추정을 생성 할 수 있지만 클러스터를 생성하는 알고리즘을 사용하여 더 큰 규모의 데이터 세트를 처리 할 때 훨씬 정확한 결과를 얻을 수 있습니다. 시각적 추정은 최소한의 복잡성을 가진 작은 데이터 세트에만 유용합니다. 알고리즘 - 정확하고 반복 가능한 결과를 생성하며, 알고리즘을 사용하여 데이터 집합 내의 여러 차원의 데이터에 대한 클러스터링을 생성 할 수 있습니다.