비디오: Hadoop Processing Frameworks 2024
돼지 라틴어는 돼지 프로그램을위한 언어입니다. Pig 라틴 스크립트를 Hadoop 클러스터 내에서 실행할 수있는 MapReduce 작업으로 변환합니다. 돼지 라틴과 함께 할 때, 개발팀은
-
간단하게 유지 라는 세 가지 핵심 설계 원칙을 따랐습니다. Pig Latin은 Java MapReduce와 상호 작용할 수있는 간소화 된 메소드를 제공합니다. 이는 데이터 흐름과 분석을 위해 Hadoop 클러스터에서 병렬 프로그램 생성을 단순화하는 추상화입니다. 복잡한 작업에는 일련의 상호 연관된 데이터 변환이 필요할 수 있습니다. 이러한 시리즈는 데이터 흐름 시퀀스로 인코딩됩니다. Pig Latin은 Hadoop 클러스터를 활용할 수있는 더 간단한 언어를 제공하므로 더 많은 사람들이 Hadoop의 힘을보다 쉽게 활용하고보다 빨리 생산성을 높일 수 있습니다.
스마트하게 만듭니다.
Pig Latin Compiler가 Pig Latin 프로그램을 일련의 Java MapReduce 작업으로 변환하는 작업을 수행한다는 것을 상기 할 수 있습니다. 이 트릭은 컴파일러가 이러한 Java MapReduce 작업의 실행을 자동으로 최적화하여 사용자가 데이터를 최적화하고 액세스하는 방법보다는 의미에 집중할 수있게하는 것입니다. -
SQL 유형이 있으므로이 토론은 친숙 할 것입니다. SQL은 RDBMS에 저장된 구조화 된 데이터에 액세스하는 데 사용하는 선언적 쿼리로 설정됩니다. RDBMS 엔진은 먼저 쿼리를 데이터 액세스 방법으로 변환 한 다음 통계를보고 일련의 데이터 액세스 방식을 생성합니다. 비용 기반 옵티마이 저는 가장 효율적인 실행 방법을 선택합니다.
개발을 제한하지 마십시오.
돼지를 확장하여 개발자가 특정 비즈니스 문제를 해결할 수있는 기능을 추가 할 수 있도록합니다. -
기존의 RDBMS 데이터웨어 하우스는 ETL 데이터 처리 패턴을 사용하여 외부 소스의 데이터를 990> 운영 요구 사항에 맞게 변환 한 다음 > 999를 운영 데이터 저장소, 데이터웨어 하우스 또는 다른 데이터베이스 변형과 상관없이 최종 대상에 추가합니다. 그러나 대용량 데이터를 사용하는 경우 일반적으로 이동하는 데이터의 양을 줄이기를 원하므로 처리가 데이터 자체에 적용됩니다.
Pig 데이터 흐름의 언어는 이전의 ETL 접근 방식을 대신 사용하며 ELT를 대신 사용합니다: E 다양한 출처에서 데이터를 추출합니다. l oad 그것을 HDFS로 변환 한 다음, 필요한 경우 분석을 위해 데이터를 준비하기 위해 그것을 변환합니다 (999).