비디오: AWS 빅데이터 아키텍처 패턴 및 모범 사례 - 남궁영환 빅데이터 컨설턴트(AWS 코리아) 2024
컴퓨터 속도가 빠르면 큰 데이터를 처리하는 데 필요한 수준의 성능을 보장하기에 충분하지 않습니다. 일련의 노드에서 큰 데이터 서비스의 구성 요소를 배포 할 수 있어야합니다. 분산 컴퓨팅에서 노드 는 시스템 클러스터 또는 랙 내에 포함 된 요소입니다.
노드는 일반적으로 CPU, 메모리 및 일종의 디스크를 포함합니다. 그러나 노드는 랙 내의 인접한 스토리지에 의존하는 블레이드 CPU 및 메모리 일 수도 있습니다.
대용량 데이터 환경에서 이러한 노드는 일반적으로 규모를 제공하기 위해 함께 클러스터됩니다. 예를 들어 큰 데이터 분석으로 시작하여 더 많은 데이터 소스를 계속 추가 할 수 있습니다. 성장을 수용하기 위해 조직은 더 많은 노드를 클러스터에 추가하기 만하면 확장 요구 사항을 수용하기 위해 확장 할 수 있습니다.
그러나 클러스터의 노드 수를 단순히 확장하는 것으로는 충분하지 않습니다. 오히려 큰 데이터 분석의 일부를 다른 물리적 환경으로 보낼 수 있어야합니다. 이러한 작업을 보내고 관리하는 방법은 성공과 실패의 차이를 만듭니다.
복잡한 상황에서는 동일한 클러스터 내에서도 여러 가지 알고리즘을 병렬로 실행하여 필요한 분석 속도를 얻을 수 있습니다. 동일한 랙 내에서 다른 대형 데이터 알고리즘을 병렬로 실행하는 이유는 무엇입니까? 함수의 분포가 가까울수록 실행할 수있는 속도가 빠릅니다.
사용 가능한 용량을 활용하기 위해 네트워크를 통해 큰 데이터 분석을 배포 할 수도 있지만 성능 요구 사항에 따라이 유형의 배포를 수행해야합니다. 일부 상황에서는 처리 속도가 뒤처 질 수 있습니다. 그러나 다른 상황에서는 결과를 빨리 얻는 것이 필수 조건입니다. 이 경우 네트워킹 기능이 서로 근접해 있는지 확인해야합니다. 일반적으로 큰 데이터 환경은 분석 작업 유형에 맞게 최적화되어야합니다. 따라서 확장 성은 큰 데이터를 성공적으로 운영하는 데있어 중요합니다. 단일 대형 환경에서 큰 데이터 환경을 운영하는 것은 이론적으로는 가능하지만 실용적이지는 않습니다. 빅 데이터의 확장 성 요구를 이해하려면 클라우드 확장 성을 살펴보고 요구 사항과 접근 방법을 모두 이해해야합니다. 클라우드 컴퓨팅과 마찬가지로 대형 데이터는 성능을 향상시키기 위해 랙에 결합 할 수있는 고속 네트워크 및 저렴한 클러스터 클러스터를 포함해야합니다. 이러한 클러스터는 동적 확장 및로드 밸런싱을 가능하게하는 소프트웨어 자동화에 의해 지원됩니다.
MapReduce의 설계 및 구현은 분산 컴퓨팅이 어떻게 대규모의 데이터를 운영상 가시화되고 경제적으로 만들 수 있는지에 대한 훌륭한 예입니다. 본질적으로 기업은 적절한 문제를 해결하기 위해 적절한시기에 기술 개념을 모으는 컴퓨팅 분야의 독창적 인 전환점 중 하나입니다. 분산 컴퓨팅, 향상된 하드웨어 시스템 및 MapReduce 및 Hadoop과 같은 실용적인 솔루션을 결합하면 데이터 관리가 크게 달라집니다.