비디오: [핵심 머신러닝] 수치예측, 범주예측 (분류) 2024
예측 분석의 또 다른 작업 독립 변수 집합이 주어지면 데이터의 대상 항목이 속한 클래스를 예측하여 새 데이터를 분류하는 것입니다. 예를 들어 의사 결정 트리를 사용하여 고객을 유형별로 분류 할 수 있습니다 (예: 고 가치 고객, 일반 고객 또는 경쟁 업체로 전환 할 준비가 된 고객).
R 분류 모델에 대한 유용한 정보를 보려면 다음 코드를 입력하십시오.
클래스 열은 의사 결정 트리를 생성했음을 알려줍니다. 분할이 결정되는 방법을 보려면 다음과 같이 모델을 할당 한 변수의 이름을 입력하면됩니다. >> model 6 개의 터미널 노드가있는 조건부 추론 트리 응답: seedType 입력: 면적, 둘레, 간결함, 길이, 폭, 비대칭, 길이 2 관측 수: 147 1) 면적 <= 16 2; 기준 = 1, 통계 = 123 423 2) 면적 <= 13 37; 기준 = 1, 통계 = 63, 549 3) 길이 2 4.914 5) * 가중치 = 45 2) 영역> 13 37 6) 길이 2 5. 396 8) * 가중치 = 8 1) 영역> 16 2 9) 길이 2 5. 877 11) * weights = 40
이 코드를 사용하여 의사 결정 트리의 플롯을 작성하면 모델을 시각화 할 수 있습니다.> plot (model)
의사 결정 트리를 그래픽으로 표현한 것입니다. 전체 모양이 실제 나무 모양을 모방 한 것을 볼 수 있습니다.
노드(원과 직사각형) 및 링크 또는 가장자리 (연결선)로 구성됩니다. 첫 번째 노드 (상단에서 시작)를 루트 노드
라고하고 트리의 하단에있는 노드 (사각형)를 터미널 노드 라고합니다. 5 개의 결정 노드와 6 개의 터미널 노드가 있습니다.
노드 2에서 모델에서 묻는 질문: 영역 13입니까? 대답은 '예'입니다. 따라서 경로를 따라 노드 6으로 이동하십시오.이 노드에서 모델은 다음을 묻습니다. 길이 2 <= 5. 396입니까? 그것이 사실이고, 당신이 종단 노드 7로 이동하면, 관찰 # 2가 종자 유형 1이라는 평결이 나온다. 그리고 사실 그것은 종자 유형 1이다.
모델은 다른 모든 관측치가 수업.
-
좋은 모델을 훈련했는지 확인하려면 훈련 데이터와 대조하여 확인하십시오. 다음 코드를 사용하여 테이블에서 결과를 볼 수 있습니다. >> table (predict (model), trainSet $ seedType) 1 2 3 1 45 4 3 2 3 47 0 3 1 0 44
-
오류 (또는 오 분류 비율)는 147 개 중 11 개 또는 7. 48 퍼센트입니다.
계산 된 결과와 함께 다음 단계는 테이블을 읽는 것입니다.
-
정확한 예측은 열과 행의 숫자를 동일하게 표시합니다. 이러한 결과는 왼쪽 상단부터 오른쪽 하단까지 대각선으로 표시됩니다. 예를 들어, [1, 1], [2, 2], [3, 3]은 해당 클래스에 대한 올바른 예측의 수입니다. 따라서 종자 유형 1의 경우 모델은 정확히 45 번 예측했으나 종자 유형은 7 번 (종자 유형 2의 경우 4 배, 유형 3의 경우 3 배) 잘못 분류했습니다. 종자 유형 2의 경우, 모델은 정확하게 그것을 47 번 예측했으나 3 번 잘못 분류했습니다. 종자 유형 3의 경우, 모델은 정확히 한 번 잘못 오인하고 44 번 예측했습니다.
이것은 좋은 모델임을 보여줍니다. 이제 테스트 데이터로 평가합니다. 다음은 나중에 사용할 수 있도록 테스트 데이터를 사용하여 변수를 예측 및 저장하는 코드입니다 (
test9). 테스트 데이터를 테이블에서보고 오류를 계산합니다. 코드는 다음과 같습니다. >> table (testPrediction, testSet $ seedType) testPrediction 1 2 3 1 23 2 1 2 1 19 0 3 1 0 17