비디오: 1.7 the Mapreduce Paradigm 14:14 2024
MapReduce는 대규모 데이터 집합을 병렬로 분산 처리 할 수 있도록 설계된 프로그래밍 패러다임입니다. 데이터를 튜플 세트로 변환 한 다음 이러한 튜플을 결합하여 더 작은 튜플 세트로 축소 할 수 있습니다. 평신도의 관점에서, MapReduce는 큰 데이터를 취하고 병렬 분산 컴퓨팅을 사용하여 큰 데이터를 거의 또는 거의 일정 크기의 데이터로 변환하도록 설계되었습니다. 병렬 분산 처리
는 상품 서버 클러스터 전반에 처리 작업을 분산하여 대용량 데이터를 매우 빠르게 처리하는 강력한 프레임 워크를 나타냅니다. MapReduce와 관련하여 튜플 은 데이터가 그룹화, 정렬 및 처리되는 키 - 값 쌍을 참조합니다.
맵 작업 에서 데이터를 키 - 값 쌍으로 위임하고 변환 한 다음 필터링합니다. 그런 다음 처리 할 노드에 데이터를 지정합니다.
축소 작업 에서 해당 데이터를 더 작은 크기의 데이터 세트로 집계합니다. 축소 단계의 데이터는 표준 키 - 값 형식 으로 변환됩니다. 키 가 레코드 식별자로 사용되며 값 은 식별되는 값입니다. 열쇠로. 클러스터의 컴퓨팅 노드는지도를 처리하고 사용자가 정의한 작업을 줄입니다. 이 작업은 다음 두 단계에 따라 수행됩니다.
-
들어오는 데이터는 먼저 키 - 값 쌍으로 위임되어야하며 조각으로 나뉘어져지도 작업에 할당됩니다. 서로 연결되어 공유 컴퓨팅 작업을 수행하는 노드 그룹 인 각 컴퓨팅 클러스터에는 여러 노드에 맵 작업이 할당됩니다. 키 - 값 쌍의 처리시, 중간 키 - 값 쌍이 생성된다. 중간 키 - 값 쌍은 키 값으로 정렬되며이 목록은 새로운 조각 세트로 나뉩니다. 이 새로운 단편에 대해 어떤 계산을 하든지, 감축 작업 수와 동일합니다.
데이터를 줄입니다.
모든 reduce 작업에는 단편이 할당되어 있습니다. reduce 작업은 단편을 처리하고 출력을 생성하며 이는 키 - 값 쌍입니다. Reduce 작업 또한 클러스터의 다른 노드간에 분산됩니다. 작업이 완료되면 최종 출력이 파일 시스템에 기록됩니다. -
간단히 말해, 맵을 사용하고 작업을 줄여 (키, 값) 쌍으로 데이터에 태그를 지정하고 데이터를 줄이면 데이터를 빠르고 효율적으로 압축하여 막대한 볼륨, 속도 및 다양한 데이터를 이해할 수 있습니다 이러한 집합은
집계 연산
- 데이터 집합의 여러 값을 단일 값으로 결합하는 연산을 통해 더 작은 데이터 집합으로 쌍을 이룹니다.MapReduce 아키텍처 다이어그램은 여기에서 찾을 수 있습니다. 데이터가 키, 값 및 집계를 통해 태그 지정되고 처리되지 않으면 일반적으로
는 필요에 적합하지 않습니다. MapReduce를 Hadoop 솔루션의 일부로 사용하는 경우 최종 출력은 Hadoop 분산 파일 시스템
(HDFS)에 기록됩니다. HDFS는 큰 데이터를 저장하는 데 사용되는 범용 서버 클러스터를 포함하는 파일 시스템입니다. HDFS는 값싼 상용 서버 클러스터를 통해 스토리지 작업을 분산함으로써 대용량 데이터 처리 및 스토리지를 재정적으로 실현합니다.