개인 재정 데이터웨어 하우스를 설계 할 때 수신 외부 데이터의 품질 - 더미

데이터웨어 하우스를 설계 할 때 수신 외부 데이터의 품질 - 더미

비디오: 트랙 2-6. Google Cloud Data Fusion으로 손쉽게 데이터 통합하기 (오충현) 2025

비디오: 트랙 2-6. Google Cloud Data Fusion으로 손쉽게 데이터 통합하기 (오충현) 2025
Anonim

스트림, 파일 전송 또는 다른 수단을 통해 데이터를 받기 시작한 후에는 원활한 항해가 가능합니까?

들어오는 데이터의 품질은 어떻습니까? 내부 시스템에서 오는 데이터에 대해 외부에서 제공하는 데이터에 동일한 품질 보증 (QA) 절차를 반드시 적용해야합니다. 공개 시장 정보를 구매한다고해서 데이터가 완벽하다는 보장은 없습니다.

다음 단계에 따라 들어오는 모든 데이터 배치에 QA 절차를 적용하십시오.

  1. 들어오는 데이터에 파일에 검사 값이 추가되는지 확인하십시오.

    검사 값의 예로는 각 파일의 레코드 수, 각 숫자 열의 총 값 (예: 모든 레코드의 판매 총액 및 모든 레코드에 대해 판매 된 총 판매 단위 수) 및 총 열 값의 하위 집합이 있습니다 (예를 들어 판매액과 주 단위 별 총 금액).

    검사 값이 제공되면 종단 간 로딩 절차의 일부로 저장하고 사용해야합니다. 체크 토탈이로드 할 데이터를 준비 할 때 작성한 계산에 동의 할 때까지 어느 누구도 공식적으로웨어 하우스의 컨텐츠를 업데이트해야합니다.

  2. 확인 값이 제공되지 않으면 요청하십시오.

    요청이 채우기 위해 몇 사이클 (예: 몇 주 또는 몇 달)이 소요될 수 있지만 높은 수준의 고객 서비스를 제공하고자하는 데이터 제공 업체는 이러한 유형의 요청을 심각하게 받아 들여 요청 된 제어 정보를 만들기 위해 노력합니다 유효한.

  3. 로드하는 동안 각 행을 필터링하십시오.

    다음 조건에 해당하는지 확인하십시오.

    1. 키 (각 레코드의 고유 식별자)가 모든 정보에서 정확합니다. 예를 들어, SalesMasterRecord 데이터 그룹의 각 레코드가 SalesDetailRecord에 정확히 12 개의 관련 레코드 (매월 하나씩)가 있어야하는 경우 레코드 키 값을 비교하여 모든 세부 레코드가 있는지 확인하십시오.

    2. 값의 범위가 정확합니다. 예를 들어 한달에 걸친 제품 판매량은 해당 유형의 제품에 대해 합리적인 범위 내에 있어야합니다 (예: 비행기는 볼트와 다릅니다). 누락 된 정보 필드 (거의 불가피한 - 외부에서 제공된 데이터로 발생)는 들어오는 데이터의 의미를 왜곡하지 않습니다.

    3. 예를 들어, 보충적인 데이터 조각 (특정 산업이나 조직의 비즈니스 규칙에 따라 정의 됨)이 너무 심각하지는 않더라도 수신 레코드의 절반에 빈 공간이있는 경우 UnitsSold, TotalSalesPrice, 또는 다른 중요한 유형의 정보가 있어야합니다. 데이터의 가치는 기껏해야 의심 스럽습니다.

      특히 외부 데이터 (예: 처음 3 ~ 4 개월)를 얻는 초기 단계에서 사용자가 동일한 도구를 사용하여 비즈니스를 수행하기 전에 데이터 품질 분석을 수행하려면 10 장에서 설명한 분석 도구를 사용하십시오 분석.

    4. 이상한 점, 이상한 점, 혼란스러운 결과, 불일치, 명백한 역설 및 그저 이상하게 보이는 점을 검색합니다. 그런 다음 데이터의 근원까지 드릴 다운하여 기이 한 원인을 확인하십시오.

      수백만 행의 수신 데이터를 처리하고 있음을 기억하십시오. 모든 행을 개인적으로 체크 아웃 할 수있을뿐만 아니라 모든 가능한 조건에 대해 필터링 및 QA 확인 기준을 설정하는 것이 어려울 수 있습니다.

      외부에서 제공 한 소스 데이터로 수행 한 적이있는 사람은 들어오는 정보에 모든 종류의 이상한 불일치와 누락 된 데이터가 있습니다. 사용자 대신 자신을 사용하고 사용하는 도구와 동일한 도구를 사용하면 수정할 수있는 것을 발견하여 데이터웨어 하우스를 중요한 비즈니스 정보를 훨씬 더 잘 보관할 수 있습니다.

데이터웨어 하우스를 설계 할 때 수신 외부 데이터의 품질 - 더미

편집자의 선택

Nikon D3100의 뷰 파인더 대신 모니터 사용 - 많은 최신 dSLR과 같은 인력

Nikon D3100의 뷰 파인더 대신 모니터 사용 - 많은 최신 dSLR과 같은 인력

Nikon D3100은 라이브 뷰를 제공합니다.이 뷰는 사진을 찍을 때 모니터를 뷰 파인더로 사용합니다. 라이브 뷰를 켜는 것은 비디오 촬영 프로세스의 첫 번째 부분이기도합니다. 사실, 동영상을 촬영할 때 뷰 파인더 대신 모니터를 사용해야합니다. 라이브 뷰 사용 ...

을 사용 - Nikon D7000의 라이브 뷰 기능을 사용하여 인물

을 사용 - Nikon D7000의 라이브 뷰 기능을 사용하여 인물

뷰 파인더 대신에 모니터를 사용하여 사진을 구성하십시오. 많은면에서 라이브 뷰 모드에서 사진을 찍는 것은 일반적인 뷰 파인더 촬영과 다르지 않습니다. 그러나 초점을 포함하여 몇 가지 중요한 단계는 라이브 뷰를 전환 할 때 매우 다르게 작동합니다. 기본 사항 ...

편집자의 선택

Photoshop CS6에서 소실점 작업 방법 - Photoshop CS6의 소실점 명령

Photoshop CS6에서 소실점 작업 방법 - Photoshop CS6의 소실점 명령

원근감 평면이있는 이미지에서 사실적인 편집을 할 수 있습니다. 소실점을 사용하면 이미지에서 평면을 지정한 다음 다양한 기법을 사용하여 해당 평면에서 객체를 추가하거나 제거 할 수 있습니다. 편집이 필요한 이미지를 엽니 다. ...

Photoshop CC 픽셀의 측정, 계산 및 분석

Photoshop CC 픽셀의 측정, 계산 및 분석

연구원 및 과학자를 위해 설계된 < Photoshop CC의 측정 기능은 매우 강력합니다. 현미경이나 망원경으로 볼 수있는 기술적 인 이미지의 Whattvers 수를 계산할 수 있습니다. 이미지의 모든 요소의 정확한 크기를 알고 있으면 거의 모든 것을 발견 할 수 있습니다.

편집자의 선택

온라인 커뮤니티가 느리고 꾸준히 승리하는 이유 - 더미

온라인 커뮤니티가 느리고 꾸준히 승리하는 이유 - 더미

온라인 커뮤니티는 정착되지 않았습니다. 잊을 수없는 일. 최선의 시나리오는 꾸준하고 유기적 인 성장을 달성하는 것이지만, 진실은 하룻밤 사이에 발생하지 않는다는 것입니다. 한 번에 소수의 회원 만 있기 때문에 처음에는 좌절 할 수 있으며 고용주는 커뮤니티가 빠르게 성장하고 있다고 생각하지 않을 수도 있지만 진실은 ...

블로그 사이트의 글꼴을 찾는 위치 - 웹상의 많은 장소에서 찾을 수있는 인형

블로그 사이트의 글꼴을 찾는 위치 - 웹상의 많은 장소에서 찾을 수있는 인형

글꼴을 사용하면 최상의 사이트를 찾기가 어려울 수 있습니다. Google Web 글꼴 외에도 다음 목록은 무료 또는 유료로 글꼴을 찾는 데 내가 가장 좋아하는 장소를 알려줍니다. 글꼴 찾기 퀘스트를 진행하면서 친숙해질 필요가 있습니다.

일부 온라인 커뮤니티 회원이 다른 사람보다 오래 머무는 이유 - 인형

일부 온라인 커뮤니티 회원이 다른 사람보다 오래 머무는 이유 - 인형

온라인 커뮤니티가 일시적인 회원을 호스트한다는 것을 이해합니다. 그들은 장기간의 참가자들이지만, 대부분의 회원들은 여러 가지 이유로 잠시 후에 떠납니다. 종종 출발점은 커뮤니티 자체와는 아무런 관련이 없으며 다음 단계로 넘어갈 시간입니다.