예측 분석을위한 K-Means 및 DBSCAN 클러스터링 모델

비디오: 대용량 데이터 분석을 위한 병렬 Clustering 알고리즘 최적화 2024

자율 학습은 예측 분석에 많은 어려움을 겪습니다. 알고리즘을 실행할 때 기대할 수있는 것을 모르는 경우입니다. 각 알고리즘은 다른 결과를 생성합니다. 한 결과가 다른 결과보다 낫다는 것을 확신 할 수 없으며 결과가 어떤 가치를 지니고 있는지 여부도 알 수 없습니다.

결과가 무엇인지 알면 알고리즘을 조정하여 원하는 결과를 얻을 수 있습니다. 실제 데이터 세트에서는 이러한 고급 스러움을 누릴 수 없습니다. 모델을 만들 때 사용할 초기화 매개 변수와 알고리즘을 결정하려면 데이터에 대한 사전 지식이나 직관에 의존해야합니다.

실제 감독되지 않은 학습 과제에서는이 사전 지식을 사용할 수 없으며 원하는 결과를 찾기가 어렵습니다. 클러스터의 올바른 수를 선택하는 것이 핵심 문제입니다. 적절한 수의 클러스터를 우연히 발견하게되면 정확한 예측을 할 수있는 통찰력을 얻을 수 있습니다. 반대로 클러스터의 수를 잘못 추측하면 결과가 좋지 않을 수 있습니다.

선형 분리 가능한

데이터를 직선을 사용하여 분리 할 수있는 그래프의 한 점으로 생각하십시오. 데이터가 선형으로 분리 될 수 없다면 K- 평균의보다 진보 된 버전이 채택되어야 할 것입니다. 이는 계산적으로 더 비싸지고 매우 큰 데이터 세트에는 적합하지 않을 수 있습니다. 표준 구현에서 클러스터 중심 및 거리를 계산하는 복잡성은 낮습니다. DBSCAN은 불균형 클러스터 크기를 가지며 데이터가 비선형 방식으로 분리 될 수있는 데이터 집합에 더 적합합니다.K-means와 마찬가지로 DBSCAN도 확장 성이 있지만 매우 큰 데이터 세트에서 사용하면 더 많은 메모리와 컴퓨팅 성능이 필요합니다.