비디오: 7 1 Clustering I 2024
데이터 마이너는 종종 간단한 차트에 정보를 추가하기 위해 특수 기능을 이용합니다. 레이블, 오버레이 및 대화식 선택은 데이터 마이닝 응용 프로그램의 특징이며 생산성 향상에 도움이되는 특수 기능입니다.
다음 그림과 같이 마력이 증가하면 주행 거리가 감소합니다.
마일리지는 시간 경과에 따라 마일리지가 모델 연도에 비례하여 증가합니다. 이 두 가지 아이디어를 하나의 그래프로 만드는 것이 도움이 될 것입니다.
그래프에서 두 개 이상의 변수를 통합하기위한 일반적인 데이터 마이닝 접근법은
-
라벨: 라벨은 산점도에 겹쳐진 문자열 또는 범주 형 변수의 값입니다. 다음 그림은 차량의 모델 연도로 표시된 산점도를 보여줍니다.
많은 포인트 또는 긴 레이블이 포함 된 데이터 세트로 인해 차트를 읽을 수 없게 될 수 있습니다! 해결책은 데이터 샘플 만 사용하는 것입니다. 이러한 종류의 샘플링을위한 설정은 다음 그림과 같습니다.
-
오버레이: 오버레이에서 범주 형 변수의 값은 점의 모양이나 색을 정의합니다. 다음 그림은 마일리지 대 마력 산점도에 모델 연도를 오버레이하기위한 산점도를 설정하는 것을 보여줍니다.
내 보낸 오버레이 산점도가 다음 이미지에 나타납니다. 점 모양 오버레이보다 색 오버레이를 더 쉽게 읽을 수 있습니다. 설정은 대개 동일합니다.
산점도를 염두에 두어야 할 또 다른 사항: 동일한 지점에 여러 지점이있을 수 있습니다! 그렇다면 100 점의 점수로 1 점을 말할 수 없을 수도 있습니다. 해결 방법은 여러 인스턴스를 표시 할 수있는 옵션이 있는지 확인하는 것입니다. 포인트 크기 또는 지터 (모든 항목을 표시 할 수 있도록 지점을 실제 위치에서 약간 이동) 옵션을 찾습니다.
대화 형 산점도는 데이터 마이너를위한 훌륭한 시간 절약 요소입니다.
흥미로운 사례 그룹을 그래프로 보았을 때 더 자세히 조사하고 싶다고합시다. 하나 또는 두 점만보고 있으면 탐색 할 때 원하는 정보를 얻을 수 있지만 두 가지 점 이상에 관심이있을 때는 만족스럽지 않습니다.
대화 형 분산 형 플롯의 데이터 선택 도구는 데이터를 선택할 수있는 능력을 제공합니다. 다음 그림은 동일한 그래프 설정을 보여 주지만 마우스를 클릭하여 드래그하여 점 그룹을 선택합니다. 이것은 단지 시각적 인 기능이 아닙니다.
선택한 점을 새로운 데이터 집합으로 내보낼 수 있습니다. 이것은 매우 편리하고 빠릅니다!
필요한 포인트가 직사각형 선택에 적합하지 않은 경우 다른 옵션이 있습니다. 확대 / 축소 영역을 참조하십시오. 직사각형 선택을위한 직사각형과 자유형 선택을위한 둥근 모양을 가진 버튼을 볼 수 있습니다.
다음은 세계 여러 곳에서 판매되는 담배의 니코틴 함량에 대한 데이터를 사용한 자유 형식 선택 예입니다. 이 산점도는 6 개 유엔 지역의 표본에 대해 담배당 니코틴을 보여줍니다. (지역은 연속적인 변수가 아니므로 일반적으로 비 전통적 도구를 사용합니다.)
지역 내 포인트는 완벽한 수직선으로 떨어지지 않습니다. 왼쪽 및 오른쪽으로의 작은 시프트 (지터)는 가독성 및 출현을 위해 만들어진 것입니다. 예외적으로 높은 수준의 니코틴을 함유하고있는 담배 몇 개를 선택하십시오.
드롭 다운 메뉴는 선택 옵션을 제공합니다. 다각형 선택을 사용하면 산점도에서 자유형 영역을 표시 할 수 있습니다.
표시하려면 그래프를 클릭하여 시작점을 만든 다음 필요로하는 모양을 만들 때까지 원하는 지점 그룹을 반복해서 클릭하십시오.
오른쪽 클릭은 선택을 완료했음을 나타냅니다. 이것은 그래프의 하이라이트에서 볼 수 있습니다.