데이터 준비의 8 가지 우수 사례 - 인형

통계 소프트웨어 패키지는 요즘 매우 강력하지만 품질이 떨어지는 데이터를 극복 할 수는 없습니다. 다음은 통계 모델을 작성하기 전에해야 할 일에 대한 체크리스트입니다.

데이터 형식 확인

분석은 항상 원시 데이터 파일로 시작됩니다. 원시 데이터 파일은 다양한 모양과 크기로 제공됩니다. 메인 프레임 데이터는 PC 데이터와 다르며 스프레드 시트 데이터는 웹 데이터와 다르게 포맷됩니다. 그리고 빅 데이터 시대에, 당신은 분명히 다양한 출처의 데이터에 직면하게 될 것입니다. 데이터 분석의 첫 번째 단계는 주어진 파일을 읽을 수 있는지 확인하는 것입니다.

각 필드의 내용을 실제로 확인해야합니다. 예를 들어, 필드가 문자 필드로 나열되어 실제로는 문자 데이터가 포함되어 있기 때문에이를 신뢰하지 않는 것이 좋습니다.

데이터 유형 확인

모든 데이터는 네가 적절하게 적용 할 수있는 통계의 종류에 영향을 미치는 네 가지 카테고리 중 하나에 속합니다.

명목 데이터는 본질적으로 단순한 이름 또는 식별자입니다.
서수 데이터는 레코드를 가장 낮은 순서부터 가장 높은 순서로 정렬합니다.
간격 데이터는 그 차이가 비슷한 값을 나타냅니다.
비율 데이터는 간격 데이터와 비슷하지만 0의 값도 허용한다는 점만 다릅니다.

통계 소프트웨어에 데이터를 입력하기 전에 데이터가 속하는 카테고리를 이해하는 것이 중요합니다. 그렇지 않으면 완벽하게 합리적으로 보이는 횡설수설로 끝날 위험이 있습니다.

데이터 그래프로 나타 내기

데이터가 분산되는 방식을 이해하는 것이 중요합니다. 얼굴이 파란색 일 때까지 통계 절차를 실행할 수 있지만 그 중 아무 것도 간단한 그래프처럼 보이는 데이터에 대한 많은 정보를 제공하지는 않습니다.

데이터 정확도 확인

원하는 형식으로 데이터를 형식화 한 후에도 정확하고 이해가 필요합니다. 이 단계에서는 작업중인 주제 영역에 대해 어느 정도 알고 있어야합니다.

실제로 데이터 정확성을 확인하는 방법은 없지만 말입니다. 기본 아이디어는 데이터가 보여야한다고 생각하는 일부 속성을 공식화하고 해당 속성이 보유하고 있는지 확인하기 위해 데이터를 테스트하는 것입니다. 주가는 항상 긍정적입니까? 모든 제품 코드가 유효한 제품 코드와 일치합니까? 본질적으로, 당신은 데이터가 실제로 당신이 말한 그대로인지 여부를 알아 내려고합니다.

특이점 식별

특이점은 나머지 데이터와 함께 치열한 데이터 포인트입니다. 이 값은 나머지 데이터 세트와 비교하여 매우 크거나 작은 값입니다.이상 치는 통계 및 통계 절차를 심각하게 손상시킬 수 있기 때문에 문제가됩니다. 단일 아웃 라이어는 평균값에 큰 영향을 줄 수 있습니다. 평균은 데이터의 중심을 나타내는 것으로 가정되기 때문에 어떤 의미에서는이 외곽 값으로 인해 평균이 쓸모 없게됩니다.

특이 치를 접했을 때 가장 일반적인 전략은 특이 치를 삭제하는 것입니다. 그러나 경우에 따라서는이를 고려해야 할 수도 있습니다. 이러한 경우 일반적으로 두 가지 분석을 수행해야합니다. 하나는 특이 치를 포함하고 다른 하나는 특이 치를 제외 시켰습니다. 이를 통해 어느 메소드가 더 유용한 결과를 제공하는지 평가할 수 있습니다.

누락 된 값 처리

누락 값은 가장 일반적이며 괴롭히는 데이터 문제 중 하나입니다. 첫 번째 충동은 분석에서 누락 된 값이있는 레코드를 삭제하는 것일 수 있습니다. 이 문제는 누락 된 값이 자주 약간의 작은 데이터 결함이 아니라는 것을 나타냅니다.

데이터가 분산되는 방식에 대한 가정 확인

많은 통계적 절차는 데이터가 특정 방식으로 배포된다고 가정합니다. 그 가정이 사실이 아닐 경우, 예측의 정확성이 떨어집니다.

이 책에서 논의 된 모델링 기술에 대한 가장 일반적인 가정은 데이터가 정상적으로 배포된다는 것입니다.

그렇지 않습니다. 데이터가 필요에 따라 배포되지 않는 경우 모두가 반드시 손실되는 것은 아닙니다. 데이터를 변형하여 필요한 모양으로 배포 할 수있는 다양한 방법이 있습니다.

통계 모델의 정확성을 검증하는 가장 좋은 방법 중 하나는 구축 된 데이터에 대해 실제로 테스트하는 것입니다. 이를 수행하는 한 가지 방법은 무작위로 데이터 세트를 두 개의 파일로 분리하는 것입니다. 이 파일들을 각각 Analysis와 Test라고 부를 수 있습니다.

데이터를 무작위로 분할해야 효과적입니다. 예를 들어 데이터 집합을 위쪽 절반과 아래쪽 절반으로 간단히 나눌 수는 없습니다. 거의 모든 데이터 파일은 어떻게 든 정렬됩니다. 이것은 파일의 다른 부분에 다른 통계적 특성을 줄 수있는 체계적인 패턴을 도입합니다. 무작위로 파일을 분할하면 각 레코드에 두 파일 중 하나가 같은 기회가됩니다. 비 유적으로, 각 레코드에 대해 동전을 뒤집어서 어떤 파일이 들어가는 지 결정합니다. 임의성은 두 파일 모두 원래 데이터와 동일한 통계적 특성을 제공합니다.

데이터 세트를 분할 한 후 테스트 파일을 따로 보관합니다. 그런 다음 분석 파일을 사용하여 예측 모델을 작성하십시오. 모델이 빌드되면 테스트 파일에 적용하여 모델이 어떻게 작동하는지 확인하십시오.

이러한 방식의 테스트 모델은

over-fitting 로 알려진 현상을 방지하는 데 도움이됩니다. 본질적으로, 통계적 절차는 변수들 사이에 의미있는 관계를 발견하기보다는 데이터 파일을 암기하는 것이 가능합니다. 오버 끼워 맞춤이 발생하면 모델은 테스트 파일에 대해 매우 불량하게 테스트합니다. 당신이하는 모든 것을 백업하고 문서화하십시오.