비디오: Apache Spark Full Course - Learn Apache Spark in 8 Hours | Apache Spark Tutorial | Edureka 2024
Apache Hive는 Hadoop 커뮤니티에서 가장 널리 퍼진 데이터 쿼리 인터페이스입니다. 원래 하이브의 디자인 목표는 완전한 SQL 호환성과 고성능을 목표로하지는 않았지만 Hadoop에 대해 일괄 쿼리를 실행해야하는 개발자에게 쉽고 친숙한 인터페이스를 제공하는 것이 었습니다.
다소 짜임새있는이 접근법은 더 이상 작동하지 않으므로 실제 SQL 지원과 좋은 성능에 대한 요구가 커집니다. Hortonworks는 Stinger 프로젝트를 작성하여이 요구에 응답했습니다. Stinger 프로젝트는 Hive를 개선하는 데 개발자 리소스를 투자하여 페타 바이트 수준으로 확장하고 SQL 표준을보다 준수하도록했습니다. 이 작업은 3 단계로 진행되었습니다.
1 단계와 2 단계에서 쿼리가 처리되는 방식과 기존의 SQL 데이터 유형에 대한 지원이 추가 된 것을 여러 번 보았습니다. 보다 효율적인 처리 및 저장을 위해 ORC 파일 형식 추가 더 나은 성능을 위해 YARN과 통합되었습니다.
3 단계에서는 MapReduce에서 Hive를 분리하는 진정한 의미의 진화가 이루어집니다. 특히, 대화식 작업 부하를 위해 설계된 Hadoop의 대체 처리 모델 인 Apache Tez의 릴리스가 필요합니다.