개인 재정 CRISP-DM 프로세스 3 단계 : 데이터 준비 - 더미

CRISP-DM 프로세스 3 단계 : 데이터 준비 - 더미

차례:

비디오: Data Science for Business: Data Mining Process and CRISP DM 2024

비디오: Data Science for Business: Data Mining Process and CRISP DM 2024
Anonim

데이터 광부는 대부분의 시간을 CRISP-DM (Cross-Industry Standard Process for Data Mining) 프로세스 모델: 데이터 준비의 세 번째 단계에서 보냅니다. 데이터 마이닝에 사용 된 대부분의 데이터는 원래 다른 목적으로 수집 및 보존되었으므로 모델링에 사용할 준비가되기 전에 약간의 미세 조정이 필요합니다.

데이터 준비 단계에는 5 개의 작업 이 포함됩니다.

  • 데이터 선택

  • 데이터 작성

  • 데이터 통합 ​​

  • 데이터 서식 지정

  • CRISP-DM 단계별 가이드는 명시 적으로 데이터 집합을 각각의 데이터 준비 작업을 수행했지만 이러한 데이터 세트는 더 잘 존재하고 올바르게 보관 및 문서화되었습니다. 데이터 집합은 작업과 일대일로 대응하지 않지만 사용되는 데이터에 대한 정보는 각 산출물 보고서에 포함되어야합니다.

작업: 데이터 선택

이제 데이터 마이닝에 실제로 사용하려는 데이터의 부분을 결정하게됩니다.

이 작업을위한 산출물은 포함 및 제외의 근거입니다. 여기에서는 추가 데이터 마이닝 작업에 사용할 데이터와 사용하지 않을 데이터를 설명합니다.

목표, 데이터 품질 및 기술적 인 문제 (예: 도구의 필드 또는 행 수 제한)와의 관련성을 기반으로 보유하고있는 데이터의 각 부분을 포함 또는 제외하는 이유를 설명합니다. 처리 또는 필요에 맞게 데이터 형식의 적합성을 평가할 수 있습니다.

작업: 데이터 정리

사용하기로 선택한 데이터가 완벽하게 정리되지 않습니다 (오류가 없음). 일부 사례 또는 개별 셀 (데이터 항목)을 제외하고 특정 데이터 수정을 위해 소스를 추적하거나보다 정교한 모델링 기법으로 선택된 기본값 또는 대체물로 일부 데이터 항목을 대체하는 등의 변경 작업을 수행 할 수 있습니다. 데이터 마이닝 작업 전체 또는 일부에 대해 데이터의 하위 집합 만 사용하도록 선택할 수 있습니다.

이 작업의 결과물은 데이터 정리 보고서로, 데이터를 정리하는 데 사용 된 모든 결정과 조치를 상세하게 문서화합니다. 이 보고서는 프로세스의 데이터 이해 단계에서 데이터 품질 확인 작업에서 확인 된 각 데이터 품질 문제를 다루고 참조해야합니다. 또한 데이터 정리 중에 선택한 결과로 인한 잠재적 영향을 다루어야합니다.

작업: 데이터 작성

새로운 필드를 파생시킬 필요가있을 수 있습니다 (예: 고객이 주문을 접수 한 시간을 계산하기 위해 고객이 주문한 배달 날짜와 날짜 사용) 그렇지 않으면 새로운 형식의 데이터를 생성합니다.

이 작업의 산출물에는 두 가지 보고서가 포함됩니다.

파생 된 특성:

  • 사용자가 생성 한 새로운 필드 (열), 수행 방법 및 이유를 설명하는 보고서입니다. 생성 된 레코드:

  • 작성한 새로운 사례 (행), 수행 방법 및 이유를 설명하는 보고서. 병합 데이터 및 형식 데이터 작업은 프로세스의이 단계에서 마지막에 나열되지만 항상 마지막에 오는 것은 아니며 한 번만 올릴 수도 있습니다. 데이터 준비 단계 초기에 병합 또는 재구성을해야 할 수도 있습니다.

작업: 데이터 통합 ​​

이제 데이터가 서로 다른 여러 데이터 세트에 포함될 수 있습니다. 모델링 단계를 준비하려면 이종 데이터 세트의 일부 또는 전체를 함께 병합해야합니다.

이 작업의 결과물은 병합 된 데이터입니다. 병합이 수행 된 방법을 문서화하는 것은 상 당하지 않습니다.

작업: 데이터 서식 지정

데이터는 모델링에 가장 편리한 형식이 아닌 다른 형식으로 사용자에게 제공됩니다. (형식 변경은 일반적으로 도구의 디자인에 따라 결정됩니다.) 이제 해당 형식을 변환하십시오.

이 작업을위한 산출물은 사용자의 재 형식화 된 데이터입니다. (변경 사항을 설명하는 약간의 보고서는 포함시키는 것이 현명합니다.)

데이터 마이닝 프로세스의 데이터 준비 단계는 모델링 준비가 된 데이터 세트와 데이터 세트를 설명하는 철저한 보고서로 끝내야합니다.

CRISP-DM 프로세스 3 단계 : 데이터 준비 - 더미

편집자의 선택

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

자바 스크립트에서 HTML5 요소와 직접 상호 작용할 수 있습니다. 트릭은 선택한 요소가 지원해야하는 브라우저 및 플랫폼에서 작동하는지 확인하는 것입니다. 이 예제에서는 및 태그를 다음과 같은 솔루션의 일부로 사용하는 방법을 보여줍니다.

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

W3C (World Wide Web Consortium)에서 모든 CSS 속성의 구문과 가능한 값을 정의합니다. 정의를 가능한 한 정확하게 만들기 위해 W3C는 CSS 값 정의 구문이라는 공식 시스템을 사용합니다. 정의 구문은 가능한 값을 매우 정확하게 정의하지만 CSS 값 정의 구문을 읽는 중 ...

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

모든 페이지에 대한 특수 효과는 페이지에 동적 HTML 변경 기능을 제공하는 것입니다. 예를 들어 다음 예제와 같이 선택한 요소에 특수 효과를 만들 수 있습니다. function ChangeStyles (event) {// 요소에 대한 참조를 얻습니다. var ThisElement ...

편집자의 선택

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 경우 리본의 검토 탭에있는 변경 내용 추적 명령 단추의 드롭 다운 메뉴에서 Alt / RGC를 눌러 변경 내용 적용 / 거부 옵션을 선택하여 수락 또는 거부 할 변경 내용을 결정할 수 있습니다. 이렇게하면 Excel이 강조 표시된 모든 변경 내용을 검토합니다 ...

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel 2016 워크 시트의 특정 셀에 주석을 달 수 있습니다. 댓글은 스티커 메모의 전자 팝업 버전과 유사합니다. 셀에 주석을 추가하려면 다음과 같이하십시오. 셀 포인터를 이동하거나 주석을 추가 할 셀을 클릭하십시오. 새 주석을 클릭하십시오.

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

피벗 테이블 내부의 값을 계산합니다. 계산 된 필드 및 항목을 표에 추가 할 수 있습니다. 계산 된 필드를 추가하면 새로운 행이나 열을 피벗 테이블에 삽입 한 다음 수식을 사용하여 새 행이나 열을 채울 수 있습니다. 예를 들어 다음과 같이 나타납니다.

편집자의 선택

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

채우기 Adobe Photoshop의 기능 Creative Suite 6는 선택을 원할 때 유용합니다. 특정 상태로 바꿀 영역을 쉽게 선택할 수 있으면 기록으로 채우기 기능을 사용할 수 있습니다. 특정 이미지에서 하늘이 마음에 들지 않는다고 가정 해보십시오. 선택한 항목 ...

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6의 이미지는 먼지와 스크래치를 줄이거 나 날카로운 모서리를 부드럽게하는 것입니다. 패싯 필터는 포스터 라이징 효과를 사용하여 이미지를 분할합니다. Photoshop CS6에서 이미지를 흐리게 처리하려는 한 가지 이유는 먼지 및 스크래치를 줄이거 나 밝기를 비슷하게하는 픽셀 블록을 모아서 기하학적 모양을 사용하여 단일 값으로 변환하기 때문입니다.

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6 손 도구는 이미지 문서에서 빠르게 이동하고 스크롤 막대와 유사하게 작업하여 작업을보다 신속하게 수행 할 수 있습니다. 손 도구는 손 도구를 클릭 할 필요가 거의 없기 때문에 실제 도구보다 기능이 더 많습니다. 간단히 ...