비디오: 트랙 2-6. Google Cloud Data Fusion으로 손쉽게 데이터 통합하기 (오충현) 2024
스트림, 파일 전송 또는 다른 수단을 통해 데이터를 받기 시작한 후에는 원활한 항해가 가능합니까?
들어오는 데이터의 품질은 어떻습니까? 내부 시스템에서 오는 데이터에 대해 외부에서 제공하는 데이터에 동일한 품질 보증 (QA) 절차를 반드시 적용해야합니다. 공개 시장 정보를 구매한다고해서 데이터가 완벽하다는 보장은 없습니다.
다음 단계에 따라 들어오는 모든 데이터 배치에 QA 절차를 적용하십시오.
-
들어오는 데이터에 파일에 검사 값이 추가되는지 확인하십시오.
검사 값의 예로는 각 파일의 레코드 수, 각 숫자 열의 총 값 (예: 모든 레코드의 판매 총액 및 모든 레코드에 대해 판매 된 총 판매 단위 수) 및 총 열 값의 하위 집합이 있습니다 (예를 들어 판매액과 주 단위 별 총 금액).
검사 값이 제공되면 종단 간 로딩 절차의 일부로 저장하고 사용해야합니다. 체크 토탈이로드 할 데이터를 준비 할 때 작성한 계산에 동의 할 때까지 어느 누구도 공식적으로웨어 하우스의 컨텐츠를 업데이트해야합니다.
-
확인 값이 제공되지 않으면 요청하십시오.
요청이 채우기 위해 몇 사이클 (예: 몇 주 또는 몇 달)이 소요될 수 있지만 높은 수준의 고객 서비스를 제공하고자하는 데이터 제공 업체는 이러한 유형의 요청을 심각하게 받아 들여 요청 된 제어 정보를 만들기 위해 노력합니다 유효한.
-
로드하는 동안 각 행을 필터링하십시오.
다음 조건에 해당하는지 확인하십시오.
-
키 (각 레코드의 고유 식별자)가 모든 정보에서 정확합니다. 예를 들어, SalesMasterRecord 데이터 그룹의 각 레코드가 SalesDetailRecord에 정확히 12 개의 관련 레코드 (매월 하나씩)가 있어야하는 경우 레코드 키 값을 비교하여 모든 세부 레코드가 있는지 확인하십시오.
-
값의 범위가 정확합니다. 예를 들어 한달에 걸친 제품 판매량은 해당 유형의 제품에 대해 합리적인 범위 내에 있어야합니다 (예: 비행기는 볼트와 다릅니다). 누락 된 정보 필드 (거의 불가피한 - 외부에서 제공된 데이터로 발생)는 들어오는 데이터의 의미를 왜곡하지 않습니다.
-
예를 들어, 보충적인 데이터 조각 (특정 산업이나 조직의 비즈니스 규칙에 따라 정의 됨)이 너무 심각하지는 않더라도 수신 레코드의 절반에 빈 공간이있는 경우 UnitsSold, TotalSalesPrice, 또는 다른 중요한 유형의 정보가 있어야합니다. 데이터의 가치는 기껏해야 의심 스럽습니다.
특히 외부 데이터 (예: 처음 3 ~ 4 개월)를 얻는 초기 단계에서 사용자가 동일한 도구를 사용하여 비즈니스를 수행하기 전에 데이터 품질 분석을 수행하려면 10 장에서 설명한 분석 도구를 사용하십시오 분석.
-
이상한 점, 이상한 점, 혼란스러운 결과, 불일치, 명백한 역설 및 그저 이상하게 보이는 점을 검색합니다. 그런 다음 데이터의 근원까지 드릴 다운하여 기이 한 원인을 확인하십시오.
수백만 행의 수신 데이터를 처리하고 있음을 기억하십시오. 모든 행을 개인적으로 체크 아웃 할 수있을뿐만 아니라 모든 가능한 조건에 대해 필터링 및 QA 확인 기준을 설정하는 것이 어려울 수 있습니다.
외부에서 제공 한 소스 데이터로 수행 한 적이있는 사람은 들어오는 정보에 모든 종류의 이상한 불일치와 누락 된 데이터가 있습니다. 사용자 대신 자신을 사용하고 사용하는 도구와 동일한 도구를 사용하면 수정할 수있는 것을 발견하여 데이터웨어 하우스를 중요한 비즈니스 정보를 훨씬 더 잘 보관할 수 있습니다.
-