Predictive Analysis의 데이터 클러스터 기본 사항

A 데이터 집합 < (또는 데이터 수집)은 예측 분석의 항목 집합입니다. 예를 들어, 문서 집합은 데이터 항목이 문서 인 데이터 집합입니다. 소셜 네트워크 사용자의 정보 집합 (이름, 나이, 친구 목록, 사진 등)은 데이터 항목이 소셜 네트워크 사용자의 프로필 인 데이터 집합입니다. 데이터 클러스터링

은 데이터 집합을 유사한 항목의 하위 집합으로 나누는 작업입니다. 항목은 인스턴스, 관찰, 엔티티 또는 데이터 객체라고도합니다. 대부분의 경우 데이터 집합은 데이터 행렬 테이블 형식으로 표시됩니다. 데이터 행렬은 다음과 같이 행과 열로 표현 된 숫자, 문서 또는 표현식의 테이블입니다.

각 행은 데이터 집합의 주어진 항목에 해당합니다.

행은

항목, 객체, 인스턴스 또는 관측이라고도합니다. 각 열은 항목의 특정 특성을 나타냅니다.
열은

특징 또는 속성이라고합니다. 데이터 집합에 데이터 클러스터링을 적용하면 유사한 데이터 항목 그룹이 생성됩니다. 이 그룹을

클러스터 - 비슷한 데이터 항목 모음으로 부릅니다. 비슷한 품목들은 그들 사이에 강하고 측정 가능한 관계가 있습니다. 예를 들어 신선한 채소는 냉동 식품보다 서로 비슷합니다. 클러스터링 기술은 그룹과의 관계를 사용합니다 항목. 둘 이상의 아이템들 간의 관계 강도는

유사성 척도로서 정량화 될 수있다: 수학 함수는 두 데이터 아이템 간의 상관 관계를 계산한다.

유사성 값이라고하는 계산 결과는 기본적으로 특정 데이터 항목을 데이터 집합의 다른 모든 항목과 비교합니다. 다른 항목은 해당 항목과 비교하여 유사하거나 덜 유사합니다.

계산 된 유사점은 그룹에 항목을 할당하는 데 중요한 역할을합니다 ( 클러스터 ). 각 그룹에는 가장 잘 나타내는 항목이 있습니다. 이 항목은

대표 클러스터

라고합니다. 바구니에 여러 종류의 과일로 구성된 데이터 세트를 생각해보십시오. 바스켓에는 사과, 바나나, 레몬, 배 등 다양한 종류의 과일이 있습니다. 이 경우 과일은 데이터 항목입니다. 데이터 클러스터링 프로세스는이 데이터 세트 (다른 과일 바구니)에서 유사한 과일 그룹을 추출합니다. 데이터 클러스터링 프로세스의 첫 번째 단계는이 데이터 집합을 데이터 행렬로 변환하는 것입니다.이 데이터 집합을 모델링하는 한 가지 방법은 행이 데이터 집합 (과일)의 항목을 나타내는 것입니다. 열은 항목을 설명하는 특성 또는 기능을 나타냅니다. 예를 들어 과일 기능은 과일 종류 (바나나 또는 사과와 같은), 무게, 색상 또는 가격이 될 수 있습니다. 이 예제 데이터 세트에서 항목에는 과일 유형, 색상 및 무게라는 세 가지 기능이 있습니다. 대부분의 경우 위에서 설명한대로 과일 데이터 세트에 데이터 클러스터링 기술을 적용하면 비슷한 항목의 그룹 (클러스터) 검색이 가능합니다.

귀하의 과일은 N 개의 그룹으로 구성되어 있습니다. 그 후, 임의의 과일을 골 랐을 경우, 해당 항목에 대한 설명을 N 개의 그룹 중 하나에 포함시킬 수 있습니다.

각 그룹의 클러스터 대표를 검색하십시오.

이 예에서, 클러스터 담당자는 바스켓에서 하나의 과일 유형을 따로 따로 보관합니다. 이 열매의 특징은 그 열매가 속한 집단을 가장 잘 나타내는 것과 같습니다.

클러스터링이 완료되면 데이터 세트가 구성되고 자연 분류로 나뉩니다.

데이터 클러스터링은 데이터 집합에서 자연적 그룹을 추출하여 데이터의 구조를 나타냅니다. 그러므로 클러스터를 발견하는 것은 데이터 구조에 대한 아이디어와 가설을 세우고 더 잘 이해하기위한 통찰력을 이끌어내는 데 필수적인 단계입니다. 데이터 클러스터링은 데이터를 모델링하는 방법이 될 수도 있습니다. 클러스터 또는 클러스터 담당자별로 더 많은 데이터 본문을 나타냅니다.
시장 세분화 가 표적 시장 데이터를

같은 관심사를 공유하는 소비자 그룹과 같은 그룹으로 분할 할 때와 마찬가지로 ((예: 특정 음식 알레르기가있는 소비자)

유사한 고객 집단을 식별하면 특정 집단의 요구를 충족시키는 마케팅 전략을 개발하는 데 도움이 될 수 있습니다. 또한 데이터 클러스터링은 새 데이터 항목의 특성, 특히 새로운 데이터를 예측과 연결하는 방법을 식별, 학습 또는 예측하는 데 도움이 될 수 있습니다. 예를 들어, 패턴 인식

에서 특정 지역 또는 연령 그룹의 구매 패턴과 같은 데이터 패턴을 분석하면 예측 분석을 개발하는 데 도움이 될 수 있습니다.이 경우 예측할 수있는 데이터 항목의 특성을 예측할 수 있습니다. 확립 된 패턴과 잘 어울립니다. 과일 바구니 예제는 서로 다른 데이터 항목을 구별하기 위해 데이터 클러스터링을 사용합니다. 귀하의 비즈니스가 맞춤 과일 바구니를 조립하고, 알려지지 않은 새로운 과일이 시장에 소개된다고 가정하십시오. 새 항목을 과일 바구니에 추가하면 클러스터에 속할 클러스터를 배우거나 예측할 수 있습니다. 이미 과일 데이터 세트에 데이터 클러스터링을 적용했기 때문에 클러스터가 4 개 있으므로 새로운 항목에 적합한 클러스터 (특정 과일 유형)를 더 쉽게 예측할 수 있습니다. 알려지지 않은 과일을 다른 네 명의 클러스터 담당자와 비교하고 어떤 클러스터가 가장 적합한 지 확인하십시오.

작은 데이터 세트로 작업하는 사람에게는이 과정이 분명해 보일 수도 있지만, 대규모 항목에서는 각 항목을 검토하지 않고 수백만 개의 항목을 클러스터링해야합니다.데이터 세트가 크고 다양하며 상대적으로 일관성이없는 경우 클러스터링 알고리즘이 존재하는 이유는 복잡합니다. 컴퓨터는 그러한 유형의 작업을 가장 잘 수행합니다.