비디오: 빅데이터 039 맵리듀스 소스코드 분석 2024
Reduce 단계는 키 및 값 목록을 사용하여 클라이언트 응용 프로그램에 일반적으로 반환되는 값이 키 / 값 쌍의 집합이되도록합니다. 지금까지 큰 타격은 입력 스플릿 인 라고 불리는 더 작은 조각으로 나뉘 었으며 매퍼 작업의 개별 인스턴스가 각각을 처리했습니다.
경우에 따라서는 원하는 응용 프로그램 출력을 생성하는 데 필요한 단일 단계의 처리 만이 필요합니다. 예를 들어 모든 텍스트를 대문자로 변환하거나 비디오 파일에서 키 프레임을 추출하는 등 데이터에 대한 기본 변환 작업을 실행하는 경우 외로운 단계 만 있으면됩니다. (이것은 맵 전용 작업으로 알려져 있습니다.)
각 레코드를 하나씩 처리하는 매퍼 작업과 유사하게 감속기는 각 키를 개별적으로 처리합니다. 일반적으로 감속기는 처리하는 모든 키에 대해 단일 키 / 값 쌍을 반환합니다. 그러나 이러한 키 / 값 쌍은 필요한만큼 확장되거나 작을 수 있습니다.
리소스 관리자 (또는 Hadoop 1을 사용하는 경우 JobTracker)는 매퍼 작업에 리소스를 할당하여 입력 스플릿이 로컬로 처리되도록 최선을 다하는 경우 감속기 태스크에 대한 전략이 없습니다. 매퍼 태스크 결과 세트가 감속기 태스크에 의해 처리되도록 네트워크를 통해 전송되어야한다고 가정합니다.
->
매퍼 작업이 수 백 또는 수천 개일 경우 감속기 작업이 동일한 지역 우선 순위를 갖기위한 실용적인 방법이 없으므로 합리적인 구현입니다.