비디오: Python Tutorial - 31. Multiprocessing Pool (Map Reduce) 2024
Dummies 치트 시트를위한 빅 데이터의 일부
오픈 소스 소프트웨어 프레임 워크 인 Hadoop은 HDFS (Hadoop Distributed File System) 및 MapReduce를 사용하여 상품 클러스터에서 큰 데이터를 분석합니다 하드웨어, 즉 분산 컴퓨팅 환경에서 사용됩니다.
Hadoop 분산 파일 시스템 (HDFS)은 기업이 방대한 양의 데이터를 간단하고 실용적인 방법으로 더 쉽게 관리 할 수 있도록 개발되었습니다. Hadoop을 사용하면 큰 문제를 작은 요소로 분해하여 분석을 신속하고 비용 효율적으로 수행 할 수 있습니다. HDFS는 대용량 데이터 환경에서 파일을 관리하기위한 다양하고 탄력적 인 클러스터 방식입니다.
HDFS가 파일의 최종 목적지가 아닙니다. 오히려 데이터 볼륨 및 속도가 높을 때 필요한 고유 한 기능 세트를 제공하는 데이터 "서비스"입니다.
MapReduce는 개발자가 분산 된 프로세서 그룹에 걸쳐 엄청난 양의 구조화되지 않은 데이터를 병렬로 처리 할 수있는 프로그램을 작성할 수있게 해주는 소프트웨어 프레임 워크입니다. MapReduce는 배치 모드에서 많은 양의 데이터에 대해 일련의 기능을 효율적으로 실행하는 방법으로 Google에서 설계했습니다.
"맵"구성 요소는 프로그래밍 문제 또는 여러 작업을 여러 시스템에 분산시키고 부하 균형을 조정하고 장애 복구를 관리하는 방식으로 작업 배치를 처리합니다. 분산 계산이 완료되면 "감소"라는 또 다른 함수는 모든 요소를 다시 집계하여 결과를 제공합니다. MapReduce 사용의 예는 50 개 언어로 작성된 책의 페이지 수를 확인하는 것입니다.