개인 재정 2 단계 : 데이터 이해 -

2 단계 : 데이터 이해 -

차례:

비디오: 비즈니스 실무자를 위한 데이터 분석여행 워밍업1단계 데이터불러오기 요약 2025

비디오: 비즈니스 실무자를 위한 데이터 분석여행 워밍업1단계 데이터불러오기 요약 2025
Anonim

CRISP-DM (Cross-Industry Standard Process for Data Mining) 프로세스 모델의 두 번째 단계에서 데이터를 얻고 그것은 당신의 필요에 알 맞습니다. 비즈니스 이해로 돌아가고 계획을 수정할 수있는 문제를 파악할 수 있습니다. 목표와 계획을 다시 생각할 또 다른 이유 인 비즈니스 이해의 결함을 발견 할 수도 있습니다.

데이터 이해 단계에는 네 가지 작업 이 포함됩니다. 이들은

  • 데이터 수집

  • 데이터 설명

  • 데이터 탐색

  • 데이터 품질 확인

작업: 데이터 수집

방금 목표를 설정하고 데이터 마이닝 계획을 정의했습니다. 계획의 모든 단계는 올바른 데이터를 가지고 있는지에 달려 있습니다. 실제로 그 데이터를 가지고 있는지 확인하십시오!

이 작업에는 단 하나의 산출물, 즉 초기 데이터 수집 보고서 만 존재합니다. 보고서에서 데이터를 얻었거나 최소한 데이터에 액세스했는지, 데이터 액세스 프로세스를 테스트했는지, 데이터가 존재하는지 확인해야합니다. 또한 도구가 데이터와 호환되는지 확인하기 위해 데이터 마이닝에 사용할 도구에 데이터를로드해야합니다.

이 보고서를 작성하기 전에 필요한 데이터를 수집하는 데 많은 작업을 수행 할 수 있습니다. 먼저 다음과 같이 계획을 세웁니다.

  • 개요 데이터 요구 사항: 데이터 마이닝 목표를 처리하는 데 필요한 데이터 유형 목록을 만듭니다. 필요한 시간 범위 및 데이터 형식과 같은 세부 정보가 포함 된 목록을 확장하십시오.

  • 데이터 가용성 확인: 필요한 데이터가 존재하고이를 사용할 수 있는지 확인하십시오. 원하는 데이터 중 일부를 사용할 수없는 경우 해당 문제를 해결할 방법을 결정하십시오.

  • 선택 기준 정의:

  • 특정 데이터 소스 (데이터베이스, 파일, 데이터 등)를 식별합니다.

  • 대체 데이터 소스로 대체 < 문서 등)을 사용할 수 있습니다. 이러한 출처 내에서이 프로젝트와 관련된 테이블, 필드 및 사례 범위를 지정하십시오.

  • 이 단계를 완료하면 실제로 데이터를 얻어야합니다. 이 단계에서 프로젝트에 사용할 데이터 마이닝 플랫폼으로 데이터를 가져 와서 가능한지 확인하고 프로세스를 이해합니다. 이 평가판을 통해 예상하지 못한 소프트웨어 (또는 하드웨어) 제한 사항 (예: 사례 또는 필드 수 또는 사용 가능한 메모리 양) 을 읽을 수 있습니다.

  • 원본의 데이터 형식

    • 데이터의 불완전 성을 다루는 데 어려움이 있습니다 (예: 불완전한 데이터 집합을 가져 오거나 분석하지 않는 제품을 접할 수 있음).

    • 마지막으로 보고서에서 수집 프로세스를 요약합니다.이 보고서는 귀하의 요구 사항을 설명하고 수집 한 데이터와 출처를 정확히 설명합니다. 여기서 데이터를 실제로 얻었고 데이터 마이닝 플랫폼과 호환되는지 확인합니다. 어려움에 처한 경우 자신이 무엇인지, 어떻게 대처했는지 (대체 소스 사용, 계획 개정, 형식 변경) 설명합니다.

    • 이 작업의 산출물은 단순한 보고서 일 뿐이지 만 보고서를 작성하기 전에해야 할 작업은 간단하지 않습니다! 데이터 액세스는 기술적 인 측면과 비즈니스 측면 모두에서 어려움을 겪고있는 데이터 마이닝 프로세스에서 가장 도전적이고 좌절감이 큰 부분 중 하나입니다.

    작업: 데이터 설명

    데이터가 생겼으므로 가지고있는 것에 대한 일반적인 설명을 준비하십시오.

    이 작업의 산출물은 데이터 기술 보고서입니다. 여기에는 데이터의 출처와 형식, 사례 수, 필드의 개수와 설명 및 중요 할 수있는 기타 일반 정보가 나와 있습니다. 데이터 마이닝 목표에 대한 데이터의 적합성에 대한 간단한 평가도 수행합니다. 예를 들어 데이터에 예상되는 필드와 분석해야 할 필드가 있는지 확인하고 분석을위한 충분한 사례가 있는지 확인하십시오.

    작업: 데이터 탐색

    이 작업에서는 데이터를보다 자세히 검토합니다. 각 변수에 대해 값의 범위와 분포를 살펴 봅니다. 간단한 데이터 조작과 기본적인 통계 기술을 사용하여 데이터를 추가로 확인합니다. 데이터 탐색은 다음과 같은 여러 가지 목적을 지원합니다.

    데이터에 익숙해집니다.

    데이터 품질 문제의 징후.

    • 데이터 준비 단계의 단계를 설정합니다.

    • 이 작업을위한 산출물은 데이터 탐색 보고서입니다. 데이터 탐색 중 개발 한 가설 또는 초기 발견 사항을 문서화하는 곳입니다. 이 보고서에는 배포, 요약 및 데이터 품질 문제의 징후를 포함하여 데이터 설명 보고서보다 데이터에 대한 자세한 설명이 포함되어야합니다.

    • 작업: 데이터 품질 확인

    데이터가 있으며 검토 한 결과 목표를 뒷받침 할 수 있는지 여부를 결정해야합니다. 자주 해결할 수있는 품질 문제가 있지만 앞으로 나아갈 수는 있지만 데이터 품질이 매우 낮아 계획을 지원할 수 없으며 대안을 찾아야합니다. 최악의 데이터 문제 중 일부가 포함됩니다.

    필요한 데이터가 존재하지 않습니다. (존재하지 않았거나 폐기 되었습니까?이 데이터를 수집하고 나중에 사용할 수 있도록 저장할 수 있습니까?)

    존재하지만, 가질 수는 없습니다. (이 제한을 극복 할 수 있습니까?)

    • 심각한 데이터 품질 문제 (교정 할 수없는 누락되거나 잘못된 값이 많이 있음)를 발견했습니다.

    • 이 작업의 결과물은 데이터 품질 보고서입니다. 여기에는 보유한 데이터, 발견 된 사소한 주요 품질 문제 및 품질 문제 또는 대안 (예: 대체 데이터 자원 사용)에 대한 가능한 해결 방법이 요약되어 있습니다.정말로 심각한 데이터 품질 문제에 직면 해 있고 적절한 솔루션을 식별 할 수없는 경우 목표 또는 계획을 재검토해야 할 수도 있습니다.

    2 단계 : 데이터 이해 -

    편집자의 선택

    Nikon D7200 준비 -

    Nikon D7200 준비 -

    D7200을 사용하기 전에 배터리를 설치해야합니다. 렌즈를 장착하고 적어도 하나의 메모리 카드를 삽입하십시오. (카메라는 한 번에 두 장의 카드를 사용할 수 있지만 사진을 찍거나 영화를 녹화하기 만하면됩니다.) 몇 가지 예비 참고 사항 : 배터리 : MH-25 충전기 만 사용하십시오.

    ViewNX 2에서 원시 파일을 처리하는 방법 - Nikon ViewNX 2에서 더미

    ViewNX 2에서 원시 파일을 처리하는 방법 - Nikon ViewNX 2에서 더미

    파일을 JPEG 형식으로, 또는 최고 화질을 위해 TIFF 형식으로 변환 할 수 있습니다. ViewNX 2 컨버터는 Nikon Capture NX 2 및 일부 다른 사진 편집 프로그램과 같이 완벽한 기능을 갖추고 있지는 않지만 Raw를 약간 조정할 수 있습니다.

    Nikon D5500 - 인형

    Nikon D5500 - 인형

    에서 사진을 보호하는 방법 실수로 지우지 않도록 사진 및 동영상 파일을 보호 할 수 있습니다 니콘 D5500에 보호 상태를 부여함으로써 이 단계를 수행하면 카메라는 Delete (삭제) 단추를 누르거나 Playback (재생) 메뉴의 Delete (삭제) 옵션을 사용하여 메모리 카드에서 파일을 삭제할 수 없습니다. 또한 다음 작업을 할 수 있습니다 ...

    편집자의 선택

    WordPress 페이지와 카테고리 템플릿 -

    WordPress 페이지와 카테고리 템플릿 -

    을 WordPress의 페이지 및 카테고리 템플릿을 사용하여 비교하면 캐스 케이 딩 스타일 시트 (CSS)로 스타일을 정의하고 템플릿 태그로 기능을 정의하여 다른 유형의 리더 경험. 기본 서식 파일과 범주 서식 파일에 사용 된 서식 파일의 차이점은 다음과 같습니다.

    WordPress를 CMS로 사용하는 10 개의 훌륭한 사이트 - 인형

    WordPress를 CMS로 사용하는 10 개의 훌륭한 사이트 - 인형

    경우에 따라 말해 사이트는 블로그 또는 블로깅 소프트웨어로 구축 된 사이트입니다. 사용자는 WordPress 소프트웨어를 단순한 블로그 이상의 기능으로 확장 할 수 있기 때문에 단순히 WordPress를 블로그 플랫폼이 아닌 CMS (콘텐츠 관리 시스템)라고 부릅니다. Harvard Gazette Harvard ...

    WordPress 웹 사이트의 구조 고려 -

    WordPress 웹 사이트의 구조 고려 -

    WordPress 블로그는 기본 형식으로, 네 가지 주요 영역이 있습니다. 이러한 영역은 WordPress의 모든 버전에서 제공되는 기본 테마에 나타납니다. 머리글 :이 영역에는 일반적으로 사이트 태그 라인 또는 슬로건과 함께 사이트 이름이 포함됩니다. 경우에 따라 헤더에 그래픽 또는 이미지가 포함되는 경우도 있습니다. 본문 :이 영역은 ...

    편집자의 선택

    Minecraft에서 활과 화살을 만드는 법 - 더미

    Minecraft에서 활과 화살을 만드는 법 - 더미

    자신을 보호하기 위해 제공됩니다. Minecraft는 무기에 대한 다양한 옵션을 제공합니다. 당신이 가진 한가지 선택은 활과 화살을 만드는 것입니다. 활 제작하기 활과 화살, 그리고 화살이주는 방어력은 약간의 차이가 있습니다 : 더 많은 것을 지불하십시오 ...

    Minecraft Redstone에서 숨겨진 입력을 만드는 방법

    Minecraft Redstone에서 숨겨진 입력을 만드는 방법

    토치 키에서 BUD 스위치로 숨겨진 입력은 Minecraft redstone에서기구를 트리거하는 숨겨진 방법입니다. 숨겨진 입력을 작성하는 한 가지 방법은 다음 단계를 따르십시오. 숨겨진 입력 빌드는 연속으로 4 개의 블록으로 시작하는 것입니다. 좌측 상단에 끈적 거리는 피스톤을 놓습니다 ...

    Minecraft에서 스코어 보드로 팀을 만드는 방법 - 인형

    Minecraft에서 스코어 보드로 팀을 만드는 방법 - 인형

    스코어 보드의 마지막 기능은 Minecraft 선수 팀과 그들에게 선수를 배정합니다. 이를 통해 특정 팀 또는 팀 배포와 관련된 여러 가지 설정을 많이 설정할 수 있습니다. scoreboard teams add [display name ...] 새 팀을 만듭니다 ...