비디오: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024
Hadoop은 Apache Software Foundation에서 개발 한 오픈 소스 데이터 처리 도구입니다. Hadoop은 현재 대규모 컴퓨팅을보다 저렴하고 유연하게 만들 수 있도록 설계 되었기 때문에 거대한 양과 다양한 데이터를 처리하기위한 프로그램입니다. 하둡 (Hadoop)의 등장으로 대량 데이터 처리가 훨씬 많은 사람들과 조직에 도입되었습니다.
Hadoop은 구조화, 반 구조화 및 비정형 데이터의 대량 스트림을 처리, 처리 및 그룹화하는 훌륭한 솔루션을 제공합니다. Hadoop을 설정하고 배포함으로써 이전 데이터웨어 하우스에 상주 한 트랜잭션 데이터 세트에만 의존하지 않고 모든 조직 데이터에서 통찰력을 사용하고 그리는 비교적 저렴한 방법을 얻을 수 있습니다.
Hadoop은 대규모 컴퓨팅 요구 사항에 가장 많이 사용되는 프로그램 중 하나입니다. Hadoop은 대부분의 빅 데이터 프로젝트의 데이터 처리 요구 사항을 처리 할 수있는지도 및 축소 레이어를 제공합니다.
Hadoop조차도 데이터가 너무 크고 빠를 때가 있습니다. 이러한 경우 조직은 대안적인 맞춤형 MapReduce 배포로 전환하고 있습니다.
Hadoop은 데이터를 저장하기 위해 범용 하드웨어 클러스터를 사용합니다. 각 클러스터의 하드웨어가 연결되며이 하드웨어는 공유 클러스터 전체에서 병렬로 실행될 때 강력한 컴퓨팅 기능을 제공하는 저가의 저 성능 일반 서버 인 상용 서버 로 구성됩니다. 이 상품 서버는 노드 라고도합니다. Commoditized 컴퓨팅은 대용량 데이터를 처리하고 저장하는 데 드는 비용을 크게 줄입니다.
분산 처리 프레임 워크:-
Hadoop은 Hadoop MapReduce를 분산 처리 프레임 워크로 사용합니다. 다시 한 번 분산 처리 프레임 워크 는 처리 작업이 노드 클러스터에 분산되어 시스템 전체에 걸쳐 대용량 데이터 볼륨을 매우 신속하게 처리 할 수있는 강력한 프레임 워크입니다. 분산 파일 시스템:
-
Hadoop은 Hadoop 분산 파일 시스템 (HDFS)을 분산 파일 시스템으로 사용합니다. Hadoop에서 실행되는 응용 프로그램의 작업 부하는 Hadoop 클러스터의 노드로 나누어지고 출력은 HDFS에 저장됩니다. Hadoop 클러스터는 수천 개의 노드로 구성 될 수 있습니다. 입출력 (I / O) 프로세스 비용을 낮게 유지하기 위해 Hadoop MapReduce 작업은 가능한 한 데이터에 가깝게 수행됩니다.
이는 감축 작업 프로세서가 처리해야하는 출고 맵 작업 데이터에 최대한 가깝게 위치한다는 것을 의미합니다. 이 설계는 큰 데이터 처리에서 계산 요구 사항을 공유하는 것을 용이하게합니다.
Hadoop은 계층 적 구성도 지원합니다. 노드 중 일부는 마스터 노드로 분류되고 다른 노드는 슬레이브로 분류됩니다.
JobTracker , 로 알려진 마스터 서비스는 여러 슬레이브 서비스를 제어하도록 설계되었습니다. 슬레이브 서비스 ( TaskTrackers 라고도 함)는 각 노드에 하나씩 배포됩니다. JobTracker는 TaskTrackers를 제어하고 Hadoop MapReduce 작업을 할당합니다. Hadoop 2라고하는 새로운 버전의 Hadoop에서는 Hadoop YARN이라는 리소스 관리자가 추가되었습니다. 하둡의 MapReduce와 관련하여 YARN은 자원 관리 및 스케줄링 기능을 수행하는 통합 시스템의 역할을합니다.
Hadoop은 데이터를 일괄 적으로 처리합니다. 따라서 실시간 스트리밍 데이터로 작업하는 경우 큰 데이터 문제를 처리하기 위해 Hadoop을 사용할 수 없습니다. 이는 많은 다른 유형의 큰 데이터 문제를 해결하는 데 매우 유용합니다.