개인 재정 데이터가 올바르게 보이나요? - 더미

데이터가 올바르게 보이나요? - 더미

차례:

비디오: [대한민국 미래 포럼][정의2] 9150강 빅데이터 등장 이유와 올바른 활용 방안 2024

비디오: [대한민국 미래 포럼][정의2] 9150강 빅데이터 등장 이유와 올바른 활용 방안 2024
Anonim

대부분의 데이터 세트에는 메타 데이터가 포함되어 있습니다. 는 본질적으로 파일. 메타 데이터는 일반적으로 형식에 대한 설명, 각 데이터 필드에 어떤 값이 있는지에 대한 표시 및 이러한 값의 의미를 포함합니다.

새로운 데이터 세트를 접할 때 메타 데이터를 액면 그대로 사용하지 마십시오. 대용량 데이터의 본질은이를 생성하는 시스템이 최대한 유지되고 실행되어야합니다. 이러한 이유로 변경 사항이 구현 될 때 이러한 시스템의 메타 데이터를 업데이트하는 것이 항상 최우선 순위는 아닙니다. 데이터가 실제로 메타 데이터 주장과 같은지 확인해야합니다.

출처 확인하기

분명히 들릴지도 모르겠지만 데이터의 출처를 믿는 것이 중요합니다. 이는 데이터를 구매할 때 특히 중요합니다. 수많은 벤더가 상상할 수있는 모든 종류의 데이터를 제공합니다. 그리고 그것들은 모두 평등 한 신뢰성이 아닙니다.

데이터를 구매하기 전에 공급 업체가 어디에서 어떻게 수집하는지 이해해야합니다. 신비와 모호함은 적기입니다.

약속을 지키지 마십시오. 웹 사이트의 고객 만족도 게시 또는 공급 업체가 제공 한 고객 참조에만 전적으로 의존하지 마십시오. 가능한 경우 데이터를 사용 중이거나 사용중인 사용자를 추적하십시오.

데이터가 내부 시스템에서 오는 것이라면 소스를 평가하는 것이 여전히 중요합니다. 서로 다른 시스템은 목적이 다르므로 서로 다른 데이터에 중점을 둡니다. 그들은 다른 시간에 데이터를 수집 할 수도 있습니다.

이제 도시별로 호텔 수익을 분석한다고 가정 해 보겠습니다. 객실 요금 데이터가 예약 시스템이 아닌 프론트 데스크 시스템에서 공급된다는 사실을 알고 있어야합니다. 그러나 회사의 슈퍼 볼 광고에서 생성 된 예약 수를 분석하려는 경우 어떻게해야할까요? 이 경우 예약 시스템의 데이터를보고 싶습니다.

본 호텔의 예는 본질적으로 깨끗한 데이터조차도 문제가 될 수 있음을 보여줍니다. 데이터가 정확하고 정확히 무엇이라고 주장 되더라도 타이밍이 문제가 될 수 있습니다.시간 경과에 따라 데이터가 변경됩니다.

형식 확인

이 장의 앞 부분에서 언급했듯이 메타 데이터가 제공 할 수있는 사항 중 하나는 데이터의 형식을 나타냅니다. 형식이

인 경우 는 각 특정 데이터 요소의 모양을 의미합니다. "제품 코드"는 문자 또는 숫자입니까? "Start Date"는 날짜입니까? 아니면 실제로 datetime 스탬프입니까? 데이터 유형은 어떤 통계 및 통계 절차가 어떤 데이터 요소에 적용될 수 있는지를 결정하기 때문에 통계 분석에서 중요합니다. "First Name"과 같은 문자 필드의 평균값을 취하려고하면 매번 오류 메시지가 표시됩니다.

일반적으로이 유형의 메타 데이터는 매우 정확합니다. 일반적으로 데이터를 보유하고 자동으로 생성 될 수있는 시스템에 저장됩니다. 형식을 확인하는 것은 일반적으로 매우 간단합니다. 이러한 검증은 본질적으로 다음 섹션에서 논의되는 데이터 범위의 유효성 확인의 부산물입니다. 그러나 좀 더 어려울 수있는 경우가 있습니다.

우리가 기억하는 것보다 더 많은 시나리오를 본 적이 있습니다. 때때로 시스템이 처음 설계 될 때 개발 팀은 향후 개선 사항을 수용하기 위해 데이터 구조에 약간의 유연성을 부여하려고합니다. 때로는 각 레코드 끝에 빈 일련의 영숫자 데이터 열을 추가하기 만하면됩니다. 이러한 보조 열은 처음에는 아무것도 사용되지 않습니다. 분석가들은 항상

일부 데이터가 아닌

모든 데이터를 요구하는 측면에서 항상 오류를 범합니다. 이 사실은 데이터를 빠르게 가져올 필요성과 함께 데이터 덤프를 가져 오는 경우가 있습니다. 이 덤프에는 일반적으로 보조 열이 포함됩니다. 이 경우 메타 데이터는 "Fields 1-11"과 같은 것을 "200 자의 영숫자 문자"로 표시합니다. " 그러한 정보는 사실상 쓸모가 없습니다. 이와 같은 데이터 필드를 이해하려면 손을 더럽힐 필요가 있습니다. 수십 개의 레코드를 통해 페이지를 제외하고는 할 수있는 일이 많지 않습니다. 실제로 현장에 무엇이 있는지 정보에 근거한 추측을 시도하십시오. 대부분의 경우이 필드는 비어있는 경향이 있습니다. 하지만 항상 그런 것은 아닙니다. 좋은 소식은 필드가 실제로 사용된다면, 프로그래머가 어디에서 사용되는지를 아는 프로그래머를 찾을 수 있어야한다는 것입니다. 데이터 유형 지정 통계 분석을 수행하는 데있어 가장 중요한 단계 중 하나는 데이터가 의도 한 바가 맞는지 확인하는 것입니다. 데이터 형식에 대한 유효한 정보를 제공하지 않으면 통계 절차가 항상 중단됩니다. 그러나 이러한 절차는 데이터의 유효성에 대한 문제에 대해 크게 맹목적이다.

데이터 필드의 형식을 이해하는 것만으로는 충분하지 않습니다. 데이터 세트를 통계적 절차로 바꾸기 전에 사용중인 각 필드에 실제로 데이터가 무엇인지 이해해야합니다.

대부분의 데이터는 명목, 서수, 간격 및 비율의 네 가지 범주 중 하나에 속합니다.데이터 유형은 특정 데이터 필드에 적용 할 수있는 통계 및 통계 절차의 종류를 결정합니다. 예를 들어 "성"과 같은 필드의 평균을 취할 수는 없습니다.

데이터 형식과 데이터 형식을 혼동하는 것은 쉽습니다 (너무 일반적입니다). 데이터 필드가 문자, 정수 또는 연속인지 여부는 데이터 유형을 알려주지 않습니다.

문자 필드는 시스템의 향후 릴리스에서 캡처 될 수있는 데이터의 자리 표시 자로 사용되기도합니다. 이러한 필드가 화폐 또는 기타 숫자 데이터를 캡처하는 데 사용되는 것을 방지 할 수있는 방법은 없습니다.

가장 일반적인 데이터 유형 실수는 숫자 필드, 특히 정수 값 필드에 실제로

ordinal

데이터가 들어 있다고 가정합니다. 회사가 제품, 지역, 상점 및 기타 다양한 항목을 나타 내기 위해 숫자 코드 (명목 데이터)를 사용하는 것은 매우 일반적입니다. 항공기 코드는 하나의 예입니다. 인구 조사 지역은 또 다른 지역입니다. 신용 카드 및 사회 보장 번호조차도 일반적으로 정수로 저장됩니다. 그러나 이러한 엔티티는 모두 식별자 일뿐입니다. 그것들은 명목상의 변수들이다. 은행의 포트폴리오에있는

평균 신용 카드 번호 는 의미가없는 통계입니다.

데이터가 올바르게 보이나요? - 더미

편집자의 선택

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

로 자동 채우기 Word 2003의 상용구 기능은 자동으로 단어 쓰기를 완료합니다. 철자하기 시작 했어. 당신이 영웅으로 크리스토퍼를 특징으로하는 다음 Great American Novel을 쓰고 있다고합시다. Christopher 철자를 반복해서 쓰는 대신 이름의 몇 글자 만 입력하면 팝업 상자가 나타납니다. 그것은 말한다 : 크리스토퍼 : (삽입하려면 Enter 키를 누릅니다). ...

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항은 파일 탭을 클릭하면 파일 메뉴가 열립니다. Backstage보기라고합니다. Backstage보기는 작업중인 데이터 파일과 관련된 명령 (예 : 저장, 열기, 인쇄, 우편 발송 및 속성 확인)에 대한 액세스를 제공합니다. Backstage보기를 종료하려면 다른 탭을 클릭하거나 ...

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

당신은 여러모로 그 모양을 조정할 수 있습니다. 가장 쉬운 방법은 다이어그램에 적용된 빠른 스타일을 변경하는 것입니다. 빠른 스타일은 단순히 색상 및 모양 효과와 같은 서식 요소 모음을 구성하는 요소 중 일부에 할당됩니다.

편집자의 선택

실습 초등 교육 시험 - 실습 - 실습

실습 초등 교육 시험 - 실습 - 실습

Praxis 초등 교육 시험에는 commutative, associative, distributive 및 substitution의 4 가지 주요 속성을 이해해야합니다. 교환 가능 속성 및 결합 속성에는 더하기 및 곱하기 버전이 있습니다. 세 개 이상의 숫자가 추가되면 추가되는 순서는 중요하지 않습니다. 그 합계 ...

초등 교육 시험 문장 구조 - 더미

초등 교육 시험 문장 구조 - 더미

초등학교 교사는 문장의 다른 부분뿐만 아니라 문장의 다른 종류. 예를 들어, Praxis 초등 교육 시험에 나오는 문장 구조에 관한 질문은 주제와 술어 또는 화합물과의 차이점을 알아야 할 수도 있습니다.

초등 교육 시험 작문 구조 - 인형

초등 교육 시험 작문 구조 - 인형

학생들은 공통 구조를 사용하여 작문을 구성한다. 인과 관계, 연대순, 비교 및 ​​계약. Praxis Elementary Education 시험은 귀하가 이러한 구조를 잘 알고 있어야합니다. 다음 목록에는 공통 구조 (사용되는 경우)와 자주 사용되는 단어가 링크되어 있습니다. 원인과 결과 ...

편집자의 선택

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 도면에는 여섯 가지 종류의 시트가 표시됩니다. 한 가지 방법은 모두를 대표하는 세 가지 표준 블록을 만드는 것입니다. 또는 단일 동적 블록을 만들고 세 가지 유형 모두를 포괄하는 가시성 상태를 정의 할 수 있습니다. 다음 단계에서는 블록을 두 배로 만드는 방법을 보여줍니다 (또는 트리플 ...).

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014를 사용하면 다중 지시선 MLeaDer 명령을 사용하여 동시에 지시선과 여러 줄 문자로 구성된 객체; 다음과 같은 간단한 단계를 따르십시오. 사용자의 필요에 따라 적절한 다중 지시선 스타일을 설정하십시오. 홈 탭의 다중 지시선 스타일 드롭 다운 목록에서 기존 스타일 선택 ...