차례:
- Hadoop 클러스터의 에지 노드의 경우 엔터프라이즈 클래스 스토리지를 사용하십시오. 관리 도구 및 실행중인 클라이언트 응용 프로그램에 중점을 둔 에지 노드의 경우 RAID 1 + 0 용으로 구성된 RAID HDD 컨트롤러와 함께 4 개의 900GB SAS 드라이브를 사용하십시오.
- 범용 에지 노드는 슬레이브 노드에 사용되는 것과 비슷한 프로세서 구성, 특히 Ivy Bridge 프로세서가 2 ~ 2.5GHz로 클럭 된 듀얼 소켓 서버에서 잘 작동합니다.
- 에지 노드의 대부분 작업 부하의 경우 48GB RAM이면 충분합니다.
- 외부 네트워크와 Hadoop 클러스터 간의 통신을 가능하게하려면 에지 노드를 Hadoop 클러스터의 사설 서브넷과 회사 네트워크로 멀티 홈해야합니다.
비디오: Edge Node in Hadoop Cluster | Gateway Node in Hadoop Cluster | HadoopAdmin | Cloudera Hadoop Admin 2024
에지 노드는 Hadoop 클러스터와 외부 네트워크 간의 인터페이스입니다. 이런 이유로 인해 게이트웨이 노드라고도합니다. 일반적으로 에지 노드는 클라이언트 응용 프로그램 및 클러스터 관리 도구를 실행하는 데 사용됩니다.
이들은 또한 Hadoop 클러스터로 전송되는 데이터의 준비 영역으로 자주 사용됩니다. 따라서 Oozie, Pig, Sqoop 및 Hue 및 Ambari와 같은 관리 도구가 잘 실행됩니다. 그림은 Edge 노드에서 실행할 수있는 프로세스를 보여줍니다.
Hadoop 하드웨어 아키텍처 토론에서 에지 노드를 종종 간과합니다. 에지 노드는 Hadoop 클러스터에서 중요한 용도로 사용되며 마스터 노드 및 슬레이브 노드와는 다른 하드웨어 요구 사항을 갖기 때문에 이러한 상황은 불행합니다.
일반적으로 마스터 노드와 슬레이브 노드에 대한 관리 도구의 배포를 최소화하여 NameNode와 같은 중요한 Hadoop 서비스가 가능한 한 리소스에 대한 경쟁이 거의 없음을 확인하는 것이 좋습니다.
이 그림은 2 개의 에지 노드를 보여 주지만 많은 Hadoop 클러스터의 경우 단일 에지 노드로 충분합니다. 추가 에지 노드는 클러스터 내외로 전송되는 데이터의 양이 단일 서버가 처리하기에 너무 많은 경우에 가장 일반적으로 필요합니다.
Hadoop 클러스터의 에지 노드의 경우 엔터프라이즈 클래스 스토리지를 사용하십시오. 관리 도구 및 실행중인 클라이언트 응용 프로그램에 중점을 둔 에지 노드의 경우 RAID 1 + 0 용으로 구성된 RAID HDD 컨트롤러와 함께 4 개의 900GB SAS 드라이브를 사용하십시오.
데이터를 처리하도록 지향 된 에지 노드는 훨씬 많은 저장 공간을 필요로하므로 에지 노드에 드라이브를 추가 할 수 있습니다. 이 경우 소형 폼 팩터 SAS 드라이브에 비해 훨씬 더 많은 용량을 사용할 수 있으므로 LFF SAS 드라이브를 사용하십시오.
권장 프로세서
범용 에지 노드는 슬레이브 노드에 사용되는 것과 비슷한 프로세서 구성, 특히 Ivy Bridge 프로세서가 2 ~ 2.5GHz로 클럭 된 듀얼 소켓 서버에서 잘 작동합니다.
권장 메모리
에지 노드의 대부분 작업 부하의 경우 48GB RAM이면 충분합니다.
권장 네트워킹
외부 네트워크와 Hadoop 클러스터 간의 통신을 가능하게하려면 에지 노드를 Hadoop 클러스터의 사설 서브넷과 회사 네트워크로 멀티 홈해야합니다.
멀티 홈 컴퓨터는 여러 네트워크에 대한 전용 연결이있는 컴퓨터입니다. 이것은 왜 에지 노드가 Hadoop 클러스터 외부의 세계와 완벽하게 상호 작용하는지에 대한 실용적인 예입니다. Hadoop 클러스터를 자체 서브넷에 유지하는 것이 좋습니다. 따라서 이러한 에지 노드는 클러스터 내에서 제어되는 창 역할을합니다.
클라이언트 응용 프로그램 또는 관리 도구를 실행하는 목적으로 사용되는 에지 노드의 경우 Hadoop 클러스터에 연결하는 한 쌍과 외부 네트워크 용 두 쌍의 연결된 1GbE 네트워크 연결 쌍이 권장됩니다.
인바운드 및 아웃 바운드 데이터 전송률을 높게 처리하는 에지 노드는 2 개 (또는 그 이상)의 본드 10GbE 네트워크 커넥터 쌍이 필요합니다. 하나는 Hadoop 클러스터에 연결하고 다른 하나는 외부 네트워크 또는 특정 데이터 수집 소스 쌍입니다.