빅 데이터 - 더미의 분산 컴퓨팅 기본 사항

비디오: 빅데이터 002 빅데이터 처리 시스템 목표 2024

큰 데이터 프로젝트를 고려중인 경우 분산 컴퓨팅의 기본 사항을 이해하는 것이 중요합니다 먼저. 컴퓨팅 리소스는 다양한 방법으로 배포 될 수 있기 때문에 단일 분산 컴퓨팅 모델은 없습니다.

예를 들어 동일한 물리적 서버에 프로그램 세트를 배포하고 메시징 서비스를 사용하여 통신하고 정보를 전달할 수 있습니다. 하나의 문제를 해결하기 위해 함께 작동 할 수있는 많은 다른 시스템이나 서버를 자체 메모리로 가질 수 있습니다.

큰 데이터를 위해 분산 컴퓨팅이 필요한 이유

모든 문제가 분산 컴퓨팅을 필요로하는 것은 아닙니다. 큰 시간 제약 조건이 존재하지 않으면, 복잡한 처리가 전문화 된 서비스를 통해 원격으로 수행 될 수 있습니다. 기업이 복잡한 데이터 분석을해야 할 때 IT 부서는 많은 리소스를 처리 할 수있는 외부 서비스 또는 엔터티로 데이터를 이동했습니다.

회사는 필요한 결과를 얻기 위해 기다리고 싶지 않았습니다. 이러한 새로운 요구 사항을 처리하기에 충분한 컴퓨팅 리소스를 구입하는 것이 경제적으로 가능하지 않았습니다. 많은 경우 조직은 비용 때문에 모든 데이터를 포착하려고 시도하지 않고 데이터 선택 만 캡처합니다. 분석가들은 모든 데이터를 원했지만 적시에 적절한 데이터를 수집하기를 원하면서 스냅 샷을 해결해야했습니다.

주요 하드웨어 및 소프트웨어 혁신이 데이터 관리 업계에 혁명을 가져 왔습니다. 첫째, 혁신과 수요가 힘을 증가시키고 하드웨어 가격을 낮추었습니다. 거대한 노드 클러스터에서로드 균형 조정 및 최적화와 같은 프로세스를 자동화하여이 하드웨어를 활용하는 방법을 이해 한 새로운 소프트웨어가 등장했습니다.

소프트웨어에는 특정 작업 부하가 특정 성능 수준을 필요로한다는 것을 이해하는 기본 제공 규칙이 포함되었습니다. 이 소프트웨어는 모든 노드를 마치 컴퓨팅, 스토리지 및 네트워킹 자산 중 하나의 큰 풀처럼 다루었으며 가상화 기술을 사용하여 노드가 실패 할 경우 중단없이 다른 노드로 프로세스를 이동했습니다.

컴퓨팅 및 빅 데이터의 변화하는 경제

빨리 감기와 많은 변화가있었습니다. 지난 몇 년 동안 컴퓨팅 및 스토리지 리소스를 구입하는 비용이 크게 감소했습니다. 가상화에 힘 입어 클러스터링이 가능한 상용 서버와 랙에서 네트워크로 연결될 수있는 블레이드가 컴퓨팅의 경제성을 변화 시켰습니다. 이러한 변화는 이러한 시스템의 관리 성을 획기적으로 향상시킨 소프트웨어 자동화 솔루션의 혁신과 일치합니다.분산 컴퓨팅 및 병렬 처리 기술을 활용하는 기능은 풍경을 획기적으로 변화시키고 대기 시간을 크게 줄입니다. 고주파 거래 (High Frequency Trading, HFT)와 같은 특수한 경우가 있습니다. 단 하나의 위치에 서버를 물리적으로 배치하여 지연 시간을 단축 할 수 있습니다.

대용량 데이터의 대기 시간 문제

데이터 관리와 관련된 다년간의 문제 중 하나, 특히 대량의 데이터가 대기 시간의 영향을받습니다.

지연 시간 은 작업 실행 지연에 기반한 시스템 내 지연입니다. 대기 시간은 통신, 데이터 관리, 시스템 성능 등을 포함하여 컴퓨팅의 모든 측면에서 중요한 문제입니다. 무선 전화를 사용한 적이 있다면 직접 대기 시간을 경험했습니다. 그것은 당신과 당신의 호출자 사이의 전송 지연입니다. 대기 시간은 기업이 신제품 출시를 계획하기 위해 결과를 분석해야하는 경우와 같이 고객 만족에 거의 영향을 미치지 않습니다. 이것은 아마도 즉각적인 응답이나 액세스를 필요로하지 않습니다.

그러나 결정에 대한 응답이 고객에게 가까울수록 대기 시간이 중요합니다. 분산 컴퓨팅 및 병렬 처리 기술은 고객, 공급 업체 및 파트너가 겪는 대기 시간에 중요한 차이를 만들 수 있습니다. 많은 대용량 데이터 애플리케이션은 속도와 볼륨 및 데이터의 다양성에 대한 큰 데이터 요구 때문에 낮은 대기 시간에 의존합니다.

고성능이 필요한 경우 대기 시간이 긴 환경에서 큰 데이터 응용 프로그램을 구성 할 수 없습니다. 거의 실시간으로 데이터를 확인할 필요가 대기 시간의 영향을받을 수도 있습니다. 실시간 데이터를 처리 할 때 높은 대기 시간은 성공과 실패의 차이를 의미합니다.

대용량 데이터 요구가 솔루션을 충족합니다.

상거래에서 의약품에 이르기까지 모든 플랫폼을위한 인터넷의 성장은 차세대 데이터 관리에 대한 요구를 변화 시켰습니다. 1990 년대 후반에 Google, Yahoo!, 그리고 아마존. com은 컴퓨팅 및 스토리지를 위해 저렴한 하드웨어를 활용하여 비즈니스 모델을 확장 할 수있었습니다. 다음으로, 이들 회사는 고객이 캡처 한 엄청난 양의 데이터로 수익을 창출 할 수있는 새로운 세대의 소프트웨어 기술이 필요했습니다. 이 회사들은 분석 처리 결과를 기다릴 수 없었습니다. 그들은 거의 실시간으로이 데이터를 처리하고 분석 할 수있는 능력이 필요했습니다.