개인 재정 입력에서 나누기 Hadoop의 MapReduce에서 분할 - 더미

입력에서 나누기 Hadoop의 MapReduce에서 분할 - 더미

비디오: 하둡(HDFS) 의 파일 읽기, 쓰기 과정 쉽게 요약 2024

비디오: 하둡(HDFS) 의 파일 읽기, 쓰기 과정 쉽게 요약 2024
Anonim

HDFS가 설정된 방식으로 대용량 파일을 큰 블록 (예: 128MB 측정)으로 분해하고, HDFS는 이러한 파일의 내용을 인식하지 못합니다.

YARN에서 MapReduce 작업이 시작되면 Resource Manager (클러스터 리소스 관리 및 작업 스케줄링 기능)은 Job Master의 데몬을 생성하여 작업의 라이프 사이클을 관리합니다 (Hadoop 1에서는 JobTracker가 작업 스케줄링 및 클러스터 리소스 관리는 물론 개별 작업을 모니터링했습니다).

> 응용 프로그램 마스터가 수행하는 첫 번째 작업 중 하나는 처리에 필요한 파일 블록을 결정하는 것입니다. 응용 프로그램 마스터는 필요한 데이터 블록의 복제본이 저장되는 NameNode의 세부 정보를 요청합니다. 응용 프로그램 마스터가 자원에 요청합니다. 관리자는지도 작업을 통해 저장된 특정 슬레이브 노드의 특정 블록을 처리합니다.

데이터 블록 처리 방법을 살펴보기 전에 Hadoop이 데이터를 저장하는 방법을 자세히 알아야합니다. Hadoop에서 파일은 개별 레코드로 구성되며 매퍼 작업별로 하나씩 처리됩니다. 예를 들어, 샘플 데이터 세트에는 1987 년에서 2008 년 사이에 완료된 미국 내 항공편에 대한 정보가 들어 있습니다.

샘플 데이터 세트를 다운로드하려면 VM 브라우저에서 Firefox 브라우저를 열고 dataexpo 페이지로 이동하십시오.

매년 1 개의 커다란 파일이 있으며, 모든 파일 내에서 각각의 개별 라인은 단일 항공편을 나타냅니다. 즉, 한 줄은 하나의 레코드를 나타냅니다. 이제 Hadoop 클러스터의 블록 크기가 64MB라는 것을 기억하십시오. 이는 가벼운 데이터 파일이 정확히 64MB의 청크로 분할된다는 것을 의미합니다.

문제가 보이십니까? 각 맵 작업이 특정 데이터 블록의 모든 레코드를 처리하는 경우 블록 경계에 걸쳐있는 레코드는 어떻게됩니까? 파일 블록은 정확히 64MB (또는 블록 크기를 설정하는 모든 것)이며, HDFS는 파일 블록 내부에 무엇이 있는지에 대한 개념이 없으므로 레코드가 다른 블록으로 넘칠 때를 측정 할 수 없습니다.

이 문제를 해결하기 위해 Hadoop은

입력 스플릿

이라는 파일 블록에 저장된 데이터의 논리적 표현을 사용합니다. MapReduce 작업 클라이언트는 입력 분할을 계산할 때 블록의 첫 번째 전체 레코드가 시작되는 위치와 블록의 마지막 레코드가 끝나는 위치를 파악합니다.블록의 최종 레코드가 불완전한 경우, 입력 분할은 다음 블록에 대한 위치 정보 및 레코드를 완료하는 데 필요한 데이터의 바이트 오프셋을 포함한다.

이 그림은 데이터 블록과 입력 분할 간의 이러한 관계를 보여줍니다. 애플리케이션 마스터 데몬 (또는 Hadoop 1에있는 경우 JobTracker)에서 작업 클라이언트 대신 입력 스플릿을 계산하도록 구성 할 수 있습니다. 이렇게하면 많은 데이터 블록을 처리하는 작업이 더 빠릅니다. MapReduce 데이터 처리는 이러한 입력 분할 개념에 의해 주도됩니다. 특정 응용 프로그램에 대해 계산 된 입력 스플릿 수는 매퍼 작업 수를 결정합니다. 이러한 매퍼 작업은 가능한 경우 입력 분할이 저장되는 슬레이브 노드에 할당됩니다. Resource Manager (또는 Hadoop 1에있는 경우 JobTracker)는 입력 분할이 로컬에서 처리되도록 최선을 다합니다.

입력에서 나누기 Hadoop의 MapReduce에서 분할 - 더미

편집자의 선택

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

로 자동 채우기 Word 2003의 상용구 기능은 자동으로 단어 쓰기를 완료합니다. 철자하기 시작 했어. 당신이 영웅으로 크리스토퍼를 특징으로하는 다음 Great American Novel을 쓰고 있다고합시다. Christopher 철자를 반복해서 쓰는 대신 이름의 몇 글자 만 입력하면 팝업 상자가 나타납니다. 그것은 말한다 : 크리스토퍼 : (삽입하려면 Enter 키를 누릅니다). ...

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항은 파일 탭을 클릭하면 파일 메뉴가 열립니다. Backstage보기라고합니다. Backstage보기는 작업중인 데이터 파일과 관련된 명령 (예 : 저장, 열기, 인쇄, 우편 발송 및 속성 확인)에 대한 액세스를 제공합니다. Backstage보기를 종료하려면 다른 탭을 클릭하거나 ...

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

당신은 여러모로 그 모양을 조정할 수 있습니다. 가장 쉬운 방법은 다이어그램에 적용된 빠른 스타일을 변경하는 것입니다. 빠른 스타일은 단순히 색상 및 모양 효과와 같은 서식 요소 모음을 구성하는 요소 중 일부에 할당됩니다.

편집자의 선택

실습 초등 교육 시험 - 실습 - 실습

실습 초등 교육 시험 - 실습 - 실습

Praxis 초등 교육 시험에는 commutative, associative, distributive 및 substitution의 4 가지 주요 속성을 이해해야합니다. 교환 가능 속성 및 결합 속성에는 더하기 및 곱하기 버전이 있습니다. 세 개 이상의 숫자가 추가되면 추가되는 순서는 중요하지 않습니다. 그 합계 ...

초등 교육 시험 문장 구조 - 더미

초등 교육 시험 문장 구조 - 더미

초등학교 교사는 문장의 다른 부분뿐만 아니라 문장의 다른 종류. 예를 들어, Praxis 초등 교육 시험에 나오는 문장 구조에 관한 질문은 주제와 술어 또는 화합물과의 차이점을 알아야 할 수도 있습니다.

초등 교육 시험 작문 구조 - 인형

초등 교육 시험 작문 구조 - 인형

학생들은 공통 구조를 사용하여 작문을 구성한다. 인과 관계, 연대순, 비교 및 ​​계약. Praxis Elementary Education 시험은 귀하가 이러한 구조를 잘 알고 있어야합니다. 다음 목록에는 공통 구조 (사용되는 경우)와 자주 사용되는 단어가 링크되어 있습니다. 원인과 결과 ...

편집자의 선택

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 도면에는 여섯 가지 종류의 시트가 표시됩니다. 한 가지 방법은 모두를 대표하는 세 가지 표준 블록을 만드는 것입니다. 또는 단일 동적 블록을 만들고 세 가지 유형 모두를 포괄하는 가시성 상태를 정의 할 수 있습니다. 다음 단계에서는 블록을 두 배로 만드는 방법을 보여줍니다 (또는 트리플 ...).

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014를 사용하면 다중 지시선 MLeaDer 명령을 사용하여 동시에 지시선과 여러 줄 문자로 구성된 객체; 다음과 같은 간단한 단계를 따르십시오. 사용자의 필요에 따라 적절한 다중 지시선 스타일을 설정하십시오. 홈 탭의 다중 지시선 스타일 드롭 다운 목록에서 기존 스타일 선택 ...