데이터가 올바르게 보이나요? - 더미

대부분의 데이터 세트에는 메타 데이터가 포함되어 있습니다. 는 본질적으로 파일. 메타 데이터는 일반적으로 형식에 대한 설명, 각 데이터 필드에 어떤 값이 있는지에 대한 표시 및 이러한 값의 의미를 포함합니다.

새로운 데이터 세트를 접할 때 메타 데이터를 액면 그대로 사용하지 마십시오. 대용량 데이터의 본질은이를 생성하는 시스템이 최대한 유지되고 실행되어야합니다. 이러한 이유로 변경 사항이 구현 될 때 이러한 시스템의 메타 데이터를 업데이트하는 것이 항상 최우선 순위는 아닙니다. 데이터가 실제로 메타 데이터 주장과 같은지 확인해야합니다.

출처 확인하기

분명히 들릴지도 모르겠지만 데이터의 출처를 믿는 것이 중요합니다. 이는 데이터를 구매할 때 특히 중요합니다. 수많은 벤더가 상상할 수있는 모든 종류의 데이터를 제공합니다. 그리고 그것들은 모두 평등 한 신뢰성이 아닙니다.

데이터를 구매하기 전에 공급 업체가 어디에서 어떻게 수집하는지 이해해야합니다. 신비와 모호함은 적기입니다.

약속을 지키지 마십시오. 웹 사이트의 고객 만족도 게시 또는 공급 업체가 제공 한 고객 참조에만 전적으로 의존하지 마십시오. 가능한 경우 데이터를 사용 중이거나 사용중인 사용자를 추적하십시오.

데이터가 내부 시스템에서 오는 것이라면 소스를 평가하는 것이 여전히 중요합니다. 서로 다른 시스템은 목적이 다르므로 서로 다른 데이터에 중점을 둡니다. 그들은 다른 시간에 데이터를 수집 할 수도 있습니다.

이제 도시별로 호텔 수익을 분석한다고 가정 해 보겠습니다. 객실 요금 데이터가 예약 시스템이 아닌 프론트 데스크 시스템에서 공급된다는 사실을 알고 있어야합니다. 그러나 회사의 슈퍼 볼 광고에서 생성 된 예약 수를 분석하려는 경우 어떻게해야할까요? 이 경우 예약 시스템의 데이터를보고 싶습니다.

본 호텔의 예는 본질적으로 깨끗한 데이터조차도 문제가 될 수 있음을 보여줍니다. 데이터가 정확하고 정확히 무엇이라고 주장 되더라도 타이밍이 문제가 될 수 있습니다.시간 경과에 따라 데이터가 변경됩니다.

형식 확인

이 장의 앞 부분에서 언급했듯이 메타 데이터가 제공 할 수있는 사항 중 하나는 데이터의 형식을 나타냅니다. 형식이

인 경우 는 각 특정 데이터 요소의 모양을 의미합니다. "제품 코드"는 문자 또는 숫자입니까? "Start Date"는 날짜입니까? 아니면 실제로 datetime 스탬프입니까? 데이터 유형은 어떤 통계 및 통계 절차가 어떤 데이터 요소에 적용될 수 있는지를 결정하기 때문에 통계 분석에서 중요합니다. "First Name"과 같은 문자 필드의 평균값을 취하려고하면 매번 오류 메시지가 표시됩니다.

일반적으로이 유형의 메타 데이터는 매우 정확합니다. 일반적으로 데이터를 보유하고 자동으로 생성 될 수있는 시스템에 저장됩니다. 형식을 확인하는 것은 일반적으로 매우 간단합니다. 이러한 검증은 본질적으로 다음 섹션에서 논의되는 데이터 범위의 유효성 확인의 부산물입니다. 그러나 좀 더 어려울 수있는 경우가 있습니다.

우리가 기억하는 것보다 더 많은 시나리오를 본 적이 있습니다. 때때로 시스템이 처음 설계 될 때 개발 팀은 향후 개선 사항을 수용하기 위해 데이터 구조에 약간의 유연성을 부여하려고합니다. 때로는 각 레코드 끝에 빈 일련의 영숫자 데이터 열을 추가하기 만하면됩니다. 이러한 보조 열은 처음에는 아무것도 사용되지 않습니다. 분석가들은 항상

일부 데이터가 아닌

모든 데이터를 요구하는 측면에서 항상 오류를 범합니다. 이 사실은 데이터를 빠르게 가져올 필요성과 함께 데이터 덤프를 가져 오는 경우가 있습니다. 이 덤프에는 일반적으로 보조 열이 포함됩니다. 이 경우 메타 데이터는 "Fields 1-11"과 같은 것을 "200 자의 영숫자 문자"로 표시합니다. " 그러한 정보는 사실상 쓸모가 없습니다. 이와 같은 데이터 필드를 이해하려면 손을 더럽힐 필요가 있습니다. 수십 개의 레코드를 통해 페이지를 제외하고는 할 수있는 일이 많지 않습니다. 실제로 현장에 무엇이 있는지 정보에 근거한 추측을 시도하십시오. 대부분의 경우이 필드는 비어있는 경향이 있습니다. 하지만 항상 그런 것은 아닙니다. 좋은 소식은 필드가 실제로 사용된다면, 프로그래머가 어디에서 사용되는지를 아는 프로그래머를 찾을 수 있어야한다는 것입니다. 데이터 유형 지정 통계 분석을 수행하는 데있어 가장 중요한 단계 중 하나는 데이터가 의도 한 바가 맞는지 확인하는 것입니다. 데이터 형식에 대한 유효한 정보를 제공하지 않으면 통계 절차가 항상 중단됩니다. 그러나 이러한 절차는 데이터의 유효성에 대한 문제에 대해 크게 맹목적이다.

데이터 필드의 형식을 이해하는 것만으로는 충분하지 않습니다. 데이터 세트를 통계적 절차로 바꾸기 전에 사용중인 각 필드에 실제로 데이터가 무엇인지 이해해야합니다.

대부분의 데이터는 명목, 서수, 간격 및 비율의 네 가지 범주 중 하나에 속합니다.데이터 유형은 특정 데이터 필드에 적용 할 수있는 통계 및 통계 절차의 종류를 결정합니다. 예를 들어 "성"과 같은 필드의 평균을 취할 수는 없습니다.

데이터 형식과 데이터 형식을 혼동하는 것은 쉽습니다 (너무 일반적입니다). 데이터 필드가 문자, 정수 또는 연속인지 여부는 데이터 유형을 알려주지 않습니다.

문자 필드는 시스템의 향후 릴리스에서 캡처 될 수있는 데이터의 자리 표시 자로 사용되기도합니다. 이러한 필드가 화폐 또는 기타 숫자 데이터를 캡처하는 데 사용되는 것을 방지 할 수있는 방법은 없습니다.

가장 일반적인 데이터 유형 실수는 숫자 필드, 특히 정수 값 필드에 실제로

ordinal

데이터가 들어 있다고 가정합니다. 회사가 제품, 지역, 상점 및 기타 다양한 항목을 나타 내기 위해 숫자 코드 (명목 데이터)를 사용하는 것은 매우 일반적입니다. 항공기 코드는 하나의 예입니다. 인구 조사 지역은 또 다른 지역입니다. 신용 카드 및 사회 보장 번호조차도 일반적으로 정수로 저장됩니다. 그러나 이러한 엔티티는 모두 식별자 일뿐입니다. 그것들은 명목상의 변수들이다. 은행의 포트폴리오에있는

평균 신용 카드 번호 는 의미가없는 통계입니다.