차례:
- 문제 무시
- 누락 된 데이터를 채우는 것은 해당 필드에 있었던 것에 대해 교양있는 추측을하게합니다. 이를 수행하는 좋은 방법과 나쁜 방법이 있습니다. 간단한 (그러나 나쁜) 접근법은 누락 된 값을 누락되지 않은 값의 평균으로 대체하는 것입니다. 숫자가 아닌 필드에서는 누락 된 레코드를 다른 레코드 (모드)에서 가장 일반적인 값으로 채우고 싶을 수 있습니다. 이러한 접근법은 유감스럽게도 일부 비즈니스 응용 프로그램에서 여전히 자주 사용됩니다.그러나 통계 학자들은 나쁜 생각으로 널리 간주됩니다. 첫째, 통계 분석을하는 전체 요점은 한 결과를 다른 것과 구별하는 데이터를 찾는 것입니다. 누락 된 모든 레코드를 동일한 값으로 바꾸면 아무 것도 구별하지 못합니다.
비디오: 구글 애널리틱스 누락된 전자상거래 데이터 오류 메시지 해결 방법 2024
처리해야 할 가장 빈번하고 가장 혼란스러운 데이터 문제 중 하나는 누락 된 데이터입니다. 레코드가 삭제되었거나 저장 장치가 가득 차서 파일이 불완전 할 수 있습니다. 또는 일부 데이터 필드에는 일부 레코드에 대한 데이터가 없을 수 있습니다. 이러한 문제 중 첫 번째는 단순히 파일의 레코드 수를 확인하여 진단 할 수 있습니다. 두 번째 문제는 다루기가 더 어렵습니다.
누락 된 값이 들어있는 필드를 찾을 때 간단히 말하면
-
무시하십시오.
-
들판에 뭔가를 집어 넣으십시오.
문제 무시
경우에 따라 누락 된 값이 많은 단일 필드를 찾을 수도 있습니다. 그렇다면 가장 쉬운 방법은 필드를 무시하는 것입니다. 분석에 포함시키지 마십시오.
이 문제를 무시하는 또 다른 방법은 레코드를 무시하는 것입니다. 누락 된 데이터가 포함 된 레코드를 삭제하기 만하면됩니다. 불량 레코드가 몇 개만있는 경우에는 의미가 있습니다. 그러나 상당수의 누락 값을 포함하는 여러 데이터 필드가있는 경우이 방법을 사용하면 레코드 수를 허용 할 수없는 수준으로 줄일 수 있습니다.
누락 된 데이터 채우기
누락 된 데이터를 채우는 것은 해당 필드에 있었던 것에 대해 교양있는 추측을하게합니다. 이를 수행하는 좋은 방법과 나쁜 방법이 있습니다. 간단한 (그러나 나쁜) 접근법은 누락 된 값을 누락되지 않은 값의 평균으로 대체하는 것입니다. 숫자가 아닌 필드에서는 누락 된 레코드를 다른 레코드 (모드)에서 가장 일반적인 값으로 채우고 싶을 수 있습니다. 이러한 접근법은 유감스럽게도 일부 비즈니스 응용 프로그램에서 여전히 자주 사용됩니다.그러나 통계 학자들은 나쁜 생각으로 널리 간주됩니다. 첫째, 통계 분석을하는 전체 요점은 한 결과를 다른 것과 구별하는 데이터를 찾는 것입니다. 누락 된 모든 레코드를 동일한 값으로 바꾸면 아무 것도 구별하지 못합니다.
더 고배차 접근법은 값이 누락 된 각 레코드에 어떤 값을 채워야하는지 의미있는 방식으로 예측하는 방법을 찾기 위해 시도하는 것입니다. 이것은 완전한 기록을보고 부족한 가치가 무엇인지에 대한 단서를 찾으려는 것입니다.
인구 통계 학적 파일을 분석하여 제품 중 하나의 구매자를 예측한다고 가정합니다. 이 파일에는 결혼 상태, 자녀 수, 자동차 수에 대한 정보가 있습니다. 어떤 이유로 인해 레코드의 3 분의 1에 자동 필드 수가 누락됩니다.
다른 두 분야 - 결혼 상태 및 자녀 수 -를 분석하면 몇 가지 패턴을 발견 할 수 있습니다. 독신 사람들은 자동차 한 대를 사는 경향이 있습니다. 결혼하지 않은 아이들이없는 사람들은 2 대의 자동차를 가지고있는 경향이 있습니다. 한 명 이상의 자녀를 둔 기혼 부부는 세 대의 자동차를 가질 가능성이 더 큽니다. 이러한 방식으로 누락 된 값을 실제로 차별화하는 방식으로 추측 할 수 있습니다. 앞으로 나아갈이 접근법에 대해 더 알고 싶습니다.
의심스러운 데이터를 나타내는 통계 및 데이터 처리의 일반적인 용어가 있습니다.
시끄러운
라는 용어는 신뢰할 수 없거나 손상되었거나 원시 상태보다 적은 데이터를 설명하는 데 사용됩니다. 누락 된 데이터는 이것의 한 예입니다. 시끄러운 데이터를 정리하는 기술에 대한 자세한 설명은이 책에서 다루지 않습니다. 사실, 이것은 통계 이론에서 활발한 연구 분야입니다. 모든 소음이 누락 된 값만큼 자리 잡기 쉽지 않다는 사실 때문에 처리하기가 번거로 롭습니다.