비디오: [포스텍MOOC] 빅데이터 심화 - Week 1.2 Data Models 2024
엔터프라이즈에서 Hadoop을 사용하는 초기 사례 중 하나는 데이터웨어 하우스에 바인딩 된 데이터를 사전 처리하는 데 사용되는 프로그래밍 방식 변환 엔진이었습니다. 기본적으로이 유스 케이스는 데이터웨어 하우스에로드되기 전에 Hadoop 에코 시스템의 힘을 활용하여 데이터를 조작하고 적용합니다. 실제 변환 엔진은 새로운 것이지만 (Hadoop이기 때문에 변형 및 데이터 흐름이 돼지 또는 MapReduce에서 다른 언어로 코딩 됨) 접근 방식 자체는 ETL (Extract, Transform, Load) 프로세스와 함께 사용되었습니다.
여기에 대한 답은 ETL이며 데이터웨어 하우스의 사용 및 중요성이 증가함에 따라 프로세스의 단계가 잘 이해되고 베스트 프랙티스는 개발했다. 또한 많은 소프트웨어 회사가 IT 부서에서 자체 사용자 지정 코드 개발을 최소화 할 수 있도록 흥미로운 ETL 솔루션을 제공하기 시작했습니다.
E
데이터를 추출하고 T 분석에 필요한 양식으로 변환하고 보고 도구를 실행 한 다음이 데이터를 데이터웨어 하우스에 저장하십시오 (999 L). ETL의 일반적인 변형은 ELT - 추출,로드 및 변환입니다. ELT 프로세스에서 데이터를 대상 저장소로로드 한 후 (ETL과 대조적으로) 변환을 수행합니다. 이 방법은 변환이 구조화 된 데이터에서 매우 빠른 SQL 처리 엔진의 이점을 크게 누릴 때 자주 사용됩니다. (관계형 데이터베이스는 구조화되지 않은 데이터를 처리하는 데 탁월하지는 않지만 무엇이 구조화 된 데이터인지 매우 빠르게 처리합니다.)
Hadoop이 이제 SQL 쿼리를 처리 할 수 있으므로 ETL 및 ELT 작업 부하를 Hadoop에서 호스팅 할 수 있습니다. 그림은 참조 아키텍처에 추가 된 ETL 서비스를 보여줍니다. Hadoop 기반 랜딩 존을 배치 한 경우 Hadoop을 변환 엔진으로 사용하기 위해 필요한 거의 모든 것이 있습니다.이미 추출 단계를 다루는 Sqoop을 사용하여 운영 시스템에서 하둡으로 데이터를 가져 왔습니다. 이 시점에서 MapReduce 또는 Pig 애플리케이션에 변환 논리를 구현해야합니다. 데이터가 변환 된 후 Sqoop을 사용하여 데이터웨어 하우스에 데이터를로드 할 수 있습니다. Hadoop을 데이터 변환 엔진으로 사용하면 가능성도 높아집니다. 데이터웨어 하우스가 데이터를 수정하지 않으면 (보고 전용), 변환 프로세스를 통해 생성 한 데이터를 그대로 유지할 수 있습니다. 이 모델에서 데이터는 그림에서 왼쪽에서 오른쪽으로 만 흐릅니다. 여기서 데이터는 운영 데이터베이스에서 추출되고 방문 영역에서 변형 된 다음 데이터웨어 하우스에로드됩니다.
랜딩 존에있는 모든 변환 된 데이터가 이미 Hadoop으로 복사 할 필요는 없습니다. 물론웨어 하우스에서 데이터가 수정되지 않는 한.