개인 재정 MapReduce 작업을 최적화하는 방법 - 큰 데이터 프로젝트를 위해 MapReduce를 사용하여 실제 응용 프로그램 코드를 최적화하는 것 외에도 더미

MapReduce 작업을 최적화하는 방법 - 큰 데이터 프로젝트를 위해 MapReduce를 사용하여 실제 응용 프로그램 코드를 최적화하는 것 외에도 더미

차례:

비디오: 대용량 데이터 분석을 위한 병렬 Clustering 알고리즘 최적화 2025

비디오: 대용량 데이터 분석을 위한 병렬 Clustering 알고리즘 최적화 2025
Anonim

큰 데이터 프로젝트를 위해 MapReduce를 사용하여 실제 애플리케이션 코드를 최적화하는 것 외에도, 최적화 기술을 사용하여 신뢰성과 성능을 향상시킵니다. 하드웨어 / 네트워크 토폴로지, 동기화 및 파일 시스템의 세 가지 범주로 분류됩니다.

빅 데이터 하드웨어 / 네트워크 토폴로지

응용 프로그램과는 별도로 가장 빠른 하드웨어 및 네트워크는 소프트웨어 실행 시간이 가장 빠를 것입니다. MapReduce의 뚜렷한 장점은 상용 하드웨어 및 표준 네트워크의 저렴한 클러스터에서 실행할 수 있다는 것입니다. 서버가 물리적으로 구성되어있는 곳에주의를 기울이지 않으면 큰 데이터 작업을 지원하는 데 필요한 최상의 성능과 높은 수준의 내결함성을 얻지 못할 것입니다.

상용 하드웨어는 종종 데이터 센터의 랙에 저장됩니다. 랙 내에서의 하드웨어 근접성은 데이터 및 / 또는 코드를 랙에서 랙으로 이동하는 것과는 대조적으로 성능 이점을 제공합니다. 구현 중에 MapReduce 엔진이 이러한 근접성을 인식하고 활용할 수 있도록 구성 할 수 있습니다.

데이터와 코드를 함께 유지하는 것이 MapReduce 성능을 최적화하는 최선의 방법 중 하나입니다. 본질적으로 하드웨어 처리 요소가 서로 가까울수록 처리해야 할 대기 시간은 줄어 듭니다.

노드 내에서 모든 매핑 결과를 유지하는 것은 비효율적이기 때문에 동기화 메커니즘은 매핑 결과를 완료 한 직후 축소 노드에 복사하므로 즉시 처리를 시작할 수 있습니다. 동일한 키의 모든 값이 동일한 감속기로 전송되므로 성능과 효율성이 향상됩니다.

축소 출력은 파일 시스템에 직접 작성되므로 최상의 결과가 나오도록 설계하고 조정해야합니다.

큰 데이터 파일 시스템

MapReduce 구현은 분산 파일 시스템에서 지원됩니다. 로컬 파일 시스템과 분산 파일 시스템 간의 주요 차이점은 용량입니다. 큰 데이터 환경에서 엄청난 양의 정보를 처리하려면 파일 시스템을 네트워크의 여러 시스템이나 노드에 분산시켜야합니다.

MapReduce 구현은 마스터 노드가 모든 메타 데이터, 액세스 권한, 파일 및 블록의 매핑 및 위치 등을 저장하는 마스터 - 종속 스타일의 배포에 의존합니다. 슬레이브는 실제 데이터가 저장되는 노드입니다. 모든 요청은 마스터에 전달 된 다음 적절한 슬레이브 노드에 의해 처리됩니다.파일 시스템의 설계를 고려할 때 다음 사항을 고려해야합니다.

따뜻하게 유지:

  • 예상대로 마스터 노드는 모든 것이 시작되기 때문에 과로해질 수 있습니다. 또한 마스터 노드에 장애가 발생하면 마스터가 복원 될 때까지 전체 파일 시스템에 액세스 할 수 없습니다. 매우 중요한 최적화는 온라인 마스터에 문제가 발생하면 서비스로 이동할 수있는 "웜 대기 (warm standby)"마스터 노드를 만드는 것입니다. 파일 크기도 커집니다.

  • 파일 크기도 중요한 고려 사항입니다. 많은 작은 파일 (100MB 미만)은 피해야합니다. MapReduce 엔진을 지원하는 분산 파일 시스템은 적당한 수의 큰 파일로 채워질 때 가장 잘 작동합니다. 긴 관점:

  • 작업 부하가 일괄 적으로 관리되기 때문에 매퍼 또는 리듀서의 빠른 실행 시간보다 매우 높은 네트워크 대역폭이 중요합니다. 최적의 접근법은 코드가 읽는 동안 많은 양의 데이터를 스트리밍하고 파일 시스템에 쓸 시간이되면 다시 스트리밍하는 것입니다. 안전을 지키십시오.

  • 하지만 지나치게 그렇게하지 마십시오. 분산 파일 시스템에 보안 계층을 추가하면 성능이 저하됩니다. 악의적 인 동작이 아닌 의도하지 않은 결과를 방지하기 위해 파일 사용 권한이 있습니다. 가장 좋은 방법은 승인 된 사용자 만 데이터 센터 환경에 액세스하고 분산 파일 시스템을 외부로부터 보호하는 것입니다.

MapReduce 작업을 최적화하는 방법 - 큰 데이터 프로젝트를 위해 MapReduce를 사용하여 실제 응용 프로그램 코드를 최적화하는 것 외에도 더미

편집자의 선택

Nikon D3100의 뷰 파인더 대신 모니터 사용 - 많은 최신 dSLR과 같은 인력

Nikon D3100의 뷰 파인더 대신 모니터 사용 - 많은 최신 dSLR과 같은 인력

Nikon D3100은 라이브 뷰를 제공합니다.이 뷰는 사진을 찍을 때 모니터를 뷰 파인더로 사용합니다. 라이브 뷰를 켜는 것은 비디오 촬영 프로세스의 첫 번째 부분이기도합니다. 사실, 동영상을 촬영할 때 뷰 파인더 대신 모니터를 사용해야합니다. 라이브 뷰 사용 ...

을 사용 - Nikon D7000의 라이브 뷰 기능을 사용하여 인물

을 사용 - Nikon D7000의 라이브 뷰 기능을 사용하여 인물

뷰 파인더 대신에 모니터를 사용하여 사진을 구성하십시오. 많은면에서 라이브 뷰 모드에서 사진을 찍는 것은 일반적인 뷰 파인더 촬영과 다르지 않습니다. 그러나 초점을 포함하여 몇 가지 중요한 단계는 라이브 뷰를 전환 할 때 매우 다르게 작동합니다. 기본 사항 ...

편집자의 선택

Photoshop CS6에서 소실점 작업 방법 - Photoshop CS6의 소실점 명령

Photoshop CS6에서 소실점 작업 방법 - Photoshop CS6의 소실점 명령

원근감 평면이있는 이미지에서 사실적인 편집을 할 수 있습니다. 소실점을 사용하면 이미지에서 평면을 지정한 다음 다양한 기법을 사용하여 해당 평면에서 객체를 추가하거나 제거 할 수 있습니다. 편집이 필요한 이미지를 엽니 다. ...

Photoshop CC 픽셀의 측정, 계산 및 분석

Photoshop CC 픽셀의 측정, 계산 및 분석

연구원 및 과학자를 위해 설계된 < Photoshop CC의 측정 기능은 매우 강력합니다. 현미경이나 망원경으로 볼 수있는 기술적 인 이미지의 Whattvers 수를 계산할 수 있습니다. 이미지의 모든 요소의 정확한 크기를 알고 있으면 거의 모든 것을 발견 할 수 있습니다.

편집자의 선택

온라인 커뮤니티가 느리고 꾸준히 승리하는 이유 - 더미

온라인 커뮤니티가 느리고 꾸준히 승리하는 이유 - 더미

온라인 커뮤니티는 정착되지 않았습니다. 잊을 수없는 일. 최선의 시나리오는 꾸준하고 유기적 인 성장을 달성하는 것이지만, 진실은 하룻밤 사이에 발생하지 않는다는 것입니다. 한 번에 소수의 회원 만 있기 때문에 처음에는 좌절 할 수 있으며 고용주는 커뮤니티가 빠르게 성장하고 있다고 생각하지 않을 수도 있지만 진실은 ...

블로그 사이트의 글꼴을 찾는 위치 - 웹상의 많은 장소에서 찾을 수있는 인형

블로그 사이트의 글꼴을 찾는 위치 - 웹상의 많은 장소에서 찾을 수있는 인형

글꼴을 사용하면 최상의 사이트를 찾기가 어려울 수 있습니다. Google Web 글꼴 외에도 다음 목록은 무료 또는 유료로 글꼴을 찾는 데 내가 가장 좋아하는 장소를 알려줍니다. 글꼴 찾기 퀘스트를 진행하면서 친숙해질 필요가 있습니다.

일부 온라인 커뮤니티 회원이 다른 사람보다 오래 머무는 이유 - 인형

일부 온라인 커뮤니티 회원이 다른 사람보다 오래 머무는 이유 - 인형

온라인 커뮤니티가 일시적인 회원을 호스트한다는 것을 이해합니다. 그들은 장기간의 참가자들이지만, 대부분의 회원들은 여러 가지 이유로 잠시 후에 떠납니다. 종종 출발점은 커뮤니티 자체와는 아무런 관련이 없으며 다음 단계로 넘어갈 시간입니다.